本项目为胶东红色文献数字化专题数据库建设项目,分为 1 个包,供应商须对所投内容进行全部响应,报价若有遗漏则视为对采购人让利,供应商均应免费提供。
烟台图书馆馆藏大量的红色文献报纸,但年代久远且保存情况不容乐观,为抢救、保护和利用,对其进行全文数字化,既是对纸质报纸的再生性保护,又是对文献资源的深度揭示和探索,使其具有便捷的检索功能和使用功能,便于保存数据并提供读者检索查询使用,有效的保护纸质文献资料的同时,也提高对读者的服务能力。
对馆藏的《烟台日报》、《新威日报》、《渤海日报》、《大众日报》、《群力报》这五类报纸进行扫描等图像加工,完成报纸的版面分析、OCR 识别、字段著录、全文识别等工作。最终将成品数据导入新建设发布系统中进行日常发布查阅等。
具体工作量如下:
成果形式 |
加工数量 |
提交格式 |
版权说明 |
《烟台日报》、《新威日报》 《渤海日报》、《大众日报》 《群力报》文献数字化 |
、 、 约 22000 页 |
TIFF 图像、双层 PDF、TXT 文件、对应的发布平台 |
自有版权 |
四、技术标准
4.1《大众报》数字化要求
4.1.1板式分析要求
此环节成交供应商需对扫描的报纸进行版式分析。在本环节主要对报纸的版面进行切分,首先划定栏目,包括篇目引题、标题、副题、正文作者、图片标题、图片作者、广告等信息,同时标记出需要 OCR 识别的内容。
4.1.2OCR 文字识别要求
此环节成交供应商需对报纸进行 OCR 文字识别。识别应采取采用机器自动识别,然后以人工纠正为辅。
OCR 文字识别要求按照原篇目内容引题、标题、副题的顺序原貌识别,人工录入适用于报纸版面混乱、版面不清晰、OCR 识别效果不理想的情况。
本项目需将所有的电子扫描件统一进行识别,最终形成双层 PDF 文件及 TXT 文件。
4.1.3数据著录要求
此环节成交供应商需对报纸进行数据著录,著录字段按照我馆提供的要求进行著录。著录过程中采取相应手段,保证著录字段的正确。
4.1.4数据验收方案
目前报纸纸张酸化严重,排版无规律,印刷技术、条件与校对相对较差,文字字体和字形多样,操作人员知识有限等因素都不同程度地影响着数字化数据质量。
项目最终验收的维度主要包含: 记录标识号是否错误
报纸名称是否错误出版日期是否错误
与存储文件夹不对应版次命名是否错误
XML 记录的版次与实际图像不对应栏目的统领范围问题
不同篇目之间的边界与置标是否错误标题置标是否错误
各种文字识别是否错误
在验收过程中如果出现上述问题,成交供应商需根据要求,重新纠正数据后,再次进行验收,直至数据完全通过后,进行签字完成验收。
4.2发布平台建设要求
4.2.1发布平台需求概述
成交供应商需开发平台将成品数据管理起来。同时根据我馆的要求进行页面设计。平台设计过程中应考虑到合理性、美观性、安全性、便利性等。
平台功能应包括认证功能、发布功能、检索功能、阅读功能、排行功能、统计功能等,兼顾普及性和学术性,为读者提供一个检索红色报刊的数字化信息平台。
数据库建设实施各流程的工作完成后,由技术支持人员负责数据库的后期管理维护、系统安全、数据安全、数据备份等各项工作。另外,编辑人员还要制定更新计划, 定期对数据内容进行更新、清理和修正,保障数据库的生命活力。
4.2.2功能列表
序号 |
名称 |
技术参数及规格要求 |
1 |
平台整体功能要求 |
1、采用 J2EE 语言,B/S 结构,利用 JAVA、Web Service、XML 等成熟技术,具有方便的跨平台程序移植性和良好的可扩展性。 2、支持 SOA(面向服务的体系架构),具备技术模型简单化、开发过程一体化、业务组件实用化的显著特性,为各种复杂应用系统提供标准、安全、集成、高效的开发平台。 3、支持数据管理功能,把通过扫描和识别的图片数据和文字信息导入,以进行数据的管理和发布。 4、支持用户注册、账号注册、权限授予与管理。 5、支持用户行为记录统计与分析。 6、支持文献分类管理与全文检索。 7、支持报纸资源在线阅读、勘误、批注与互动等功能。 8、支持用户进行个人虚拟图书馆管理。 |
具体功能需求列表 |
||
2 |
报纸库首页 |
1、检索,报纸库首页支持按篇检索、高级检索、全文检索。 2、报纸库公告,在报纸库首页,读者能看到平台管理人员发布的最新公告信息。 |
报纸导航 |
按报纸名称、出版日期、版次的方式,对报纸进行导航。 |
|
时间导航 |
按报纸的出版日期由远及近的显示在时间轴上,通过点击时间轴上的时间节点来显示该年、月、日期下的报纸名称。 |
|
地图导航 |
按报纸的出版地进行导航。 |
|
拼音导航 |
按报纸名称的首字母顺序进行导航。相同字母的不同种类的报纸依次排列于架位。 |
|
报纸简介 |
按报纸名称的拼音顺序进行排序并提供导航功能,页面展示报纸名称、报纸简介信息、报纸的缩略图。 |
|
报纸简单检索 |
通过日期和检索词进行检索。 |
|
报纸复杂检索 |
按照报纸名称、版次、栏目、卷期、出版日期和标题进行检索,支持报纸的联合检索。 |
|
全文检索 |
提供全文检索功能。 |
|
检索结果的可视化显示 |
检索结果的时间轴-地域可视化显示。 |
|
全文浏览 |
提供篇目的全文浏览功能。 |
|
数据统计 |
提供统计功能,包括读者统计、访问量统计、数据量统计、使用习惯统计等。 |
|
报纸勘误 |
允许读者对报纸的篇目进行勘误操作。 |
|
排行榜 |
按照最新入库版面、最新入库篇目、篇目的点击率、报纸的访问量进行排行。 |
3 |
个人虚拟图书馆 |
1、注册 用户名、联系方式为必填项。密码确认两次、性别、地区等。 2、登录 需要本平台注册用户才能登录。 3、用户信息 可以对用户的基本信息进行修改。 4、修改密码 登录用户可以修改自己的登录密码。 5、虚拟图书馆 登录后方可使用个人虚拟图书馆的功能,详细记录一段时间内研究人员的使用记录,包括浏览历史、检索历史、书签、我的收藏等功能,提供直接跳转的功能。 |
4 |
系统管理 |
支持对于系统后台的系统参数、登录设置、接口、站点与模板的配置管理。 支持用户管理、日志管理与站内信管理。 支持资源类型分类管理、IP 地址段授权与利用者访问、阅读与检索统计。 |
4.2.3发布平台其他要求
系统应满足同时在线人数不少于 200 人的用户数下,全文检索响应时间≤0.2 秒, 业务查询页面响应时间≤1 秒,统计页面响应时间≤1 秒。同时,应给出满足以上用户数及系统响应时间的基础软硬件环境配置参数。
五、版权及保密事宜
1.在本项目建设过程中,成交供应商需遵守《中华人民共和国著作权法》及相关法律法规,并积极采用先进的技术保护措施。成交供应商制作的未完成的项目成果及其他一切非最终完成作品的版权归委托方即山东省图书馆所有;
2.成交供应商须保护对方的知识产权,未经委托方同意,不得对资料及文件擅自修改、复制、向第三人转让或用于本项目外的项目。
3.成交供应商应独立完成本项目的制作,保证委托方在使用项目成果的全部或任何一部分时,免受任何第三方提出的侵犯其知识产权或其他相关合法权益的索赔主张, 否则应对由此导致的一切损失承担赔偿责任。
4.成交供应商应严格保守在合作过程中所了解的商业及技术机密。
六、建设周期
本项目建设须于 2022 年 10 月 1 日前完成,具体阶段包括入场阶段、版面分析阶段、OCR 文字识别阶段、数据验收阶段、页面设计阶段、平台建设阶段、项目验收阶段。成交供应商需给出合理的项目实施方案及计划周期,保证项目如期验收。