本项目为胶东红色文献数字化专题数据库建设项目,分为 1 个包,供应商须对所投内容进行全部响应,报价若有遗漏则视为对采购人让利,供应商均应免费提供。
烟台图书馆馆藏大量的红色文献报纸,但年代久远且保存情况不容乐观,为抢救、保护和利用,对其进行全文数字化,既是对纸质报纸的再生性保护,又是对文献资源的深度揭示和探索,使其具有便捷的检索功能和使用功能,便于保存数据并提供读者检索查询使用,有效的保护纸质文献资料的同时,也提高对读者的服务能力。
对馆藏的《烟台日报》、《新威日报》、《渤海日报》、《大众日报》、《群力报》这五类报纸进行扫描等图像加工,完成报纸的版面分析、OCR 识别、字段著录、全文识别等工作。最终将成品数据导入新建设发布系统中进行日常发布查阅等。
具体工作量如下:
成果形式 |
加工数量 |
提交格式 |
版权说明 |
《烟台日报》、《新威日报》 《渤海日报》、《大众日报》 《群力报》文献数字化 |
约 22000 页 |
TIFF 图像、双层 PDF、TXT 文件、对应的发布平台 |
自有版权 |
此环节成交供应商需对扫描的报纸进行版式分析。在本环节主要对报纸的版面进行切分,首先划定栏目,包括篇目引题、标题、副题、正文作者、图片标题、图片作者、广告等信息,同时标记出需要 OCR 识别的内容。
此环节成交供应商需对报纸进行 OCR 文字识别。识别应采取采用机器自动识别,然后以人工纠正为辅。
OCR 文字识别要求按照原篇目内容引题、标题、副题的顺序原貌识别,人工录入适用于报纸版面混乱、版面不清晰、OCR 识别效果不理想的情况。
本项目需将所有的电子扫描件统一进行识别,最终形成双层 PDF 文件及 TXT 文件。
此环节成交供应商需对报纸进行数据著录,著录字段按照我馆提供的要求进行著录。著录过程中采取相应手段,保证著录字段的正确。
目前报纸纸张酸化严重,排版无规律,印刷技术、条件与校对相对较差,文字字体和字形多样,操作人员知识有限等因素都不同程度地影响着数字化数据质量。
项目最终验收的维度主要包含: 记录标识号是否错误
报纸名称是否错误出版日期是否错误
与存储文件夹不对应版次命名是否错误
XML 记录的版次与实际图像不对应栏目的统领范围问题
不同篇目之间的边界与置标是否错误标题置标是否错误
各种文字识别是否错误
在验收过程中如果出现上述问题,成交供应商需根据要求,重新纠正数据后,再次进行验收,直至数据完全通过后,进行签字完成验收。
成交供应商需开发平台将成品数据管理起来。同时根据我馆的要求进行页面设计。平台设计过程中应考虑到合理性、美观性、安全性、便利性等。
平台功能应包括认证功能、发布功能、检索功能、阅读功能、排行功能、统计功能等,兼顾普及性和学术性,为读者提供一个检索红色报刊的数字化信息平台。
数据库建设实施各流程的工作完成后,由技术支持人员负责数据库的后期管理维护、系统安全、数据安全、数据备份等各项工作。另外,编辑人员还要制定更新计划, 定期对数据内容进行更新、清理和修正,保障数据库的生命活力。
4.2.2功能列表
序号 |
名称 |
技术参数及规格要求 |
1 |
平台整体功能要求 |
1、采用 J2EE 语言,B/S 结构,利用 JAVA、Web Service、XML 等成熟技术,具有方便的跨平台程序移植性和良好的可扩展性。 2、支持 SOA(面向服务的体系架构),具备技术模型简单化、开发过程一体化、业务组件实用化的显著特性,为各种复杂应用系统提供标准、安全、集成、高效的开发平台。 3、支持数据管理功能,把通过扫描和识别的图片数据和文字信息导入,以进行数据的管理和发布。 4、支持用户注册、账号注册、权限授予与管理。 5、支持用户行为记录统计与分析。 6、支持文献分类管理与全文检索。 7、支持报纸资源在线阅读、勘误、批注与互动等功能。 8、支持用户进行个人虚拟图书馆管理。 |
具体功能需求列表 |
||
2 |
报纸库首页 |
1、检索,报纸库首页支持按篇检索、高级检索、全文检索。 2、报纸库公告,在报纸库首页,读者能看到平台管理人员发布的最新公告信息。 |
报纸导航 |
按报纸名称、出版日期、版次的方式,对报纸进行导航。 |
|
时间导航 |
按报纸的出版日期由远及近的显示在时间轴上,通过点击时间轴 上的时间节点来显示该年、月、日期下的报纸名称。 |
|
地图导航 |
按报纸的出版地进行导航。 |
|
拼音导航 |
按报纸名称的首字母顺序进行导航。相同字母的不同种类的报纸 依次排列于架位。 |
|
报纸简介 |
按报纸名称的拼音顺序进行排序并提供导航功能,页面展示报纸名称、报纸简介信息、报纸的缩略图。 |
|
报纸简单检索 |
通过日期和检索词进行检索。 |
|
报纸复杂检索 |
按照报纸名称、版次、栏目、卷期、出版日期和标题进行检索, 支持报纸的联合检索。 |
|
全文检索 |
提供全文检索功能。 |
|
检索结果的可 视化显示 |
检索结果的时间轴-地域可视化显示。 |
|
全文浏览 |
提供篇目的全文浏览功能。 |
|
数据统计 |
提供统计功能,包括读者统计、访问量统计、数据量统计、使用 习惯统计等。 |
|
报纸勘误 |
允许读者对报纸的篇目进行勘误操作。 |
|
排行榜 |
按照最新入库版面、最新入库篇目、篇目的点击率、报纸的访问 量进行排行。 |
详情请见招标文件