★一、数字化加工技术方案 |
藏孤本善本古籍数字资源库的建设总体上分为四个步骤:图片处理、电子书制作、元数据标引及著录、元数据与电子书的链接。首先将馆藏古籍可通过扫描、拍照等技术手段实现数字化,对图片进行处理;其次以这些图片文件为基础,进一步利用电子书加工系统制作电子书,将电子书打包导出;最后以电子书为依据制作元数据并将打包的电子书与元数据进行链接。加工方提供原始图片文件、电子书文件、元数据文件。加工方提供原始图片文件、电子书文件、元数据文件。中标单位须到馆数字化加工,任何古籍文献不得带出辽宁省图书馆(辽宁省古籍保护中心)。 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
★二、数据库的结构 |
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
三、图片处理 |
图片要保持原貌,采用真彩色方式扫描,图片最低分辩率为24位400dpi以上,生成格式为两种:1、TIFF格式,用于文件的长期保存。2、JPG格式和png格式用于文件的发布服务。要求图像清晰,完整,内容无缺失,无漏扫、错扫,保证页码连续,无缺页、重复等问题。对图像要进行自动和手工去污、锐化、倾斜校正、去黑边、杂点去除、文字效果增强等数字化处理,达到扫描精度和容量,保证原文原貌的浏览效果。要保证加工后的文献资料的完整性,不得损坏、丢失文献资料。 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
★四、电子书制作 |
首先要进行目录索引的制作,制作目录索引时主要以目次页为主要依据,目次与正文不符时以正文为准,目录信息与相应页面的链接要准确无误,各章节之间的级次要清晰准确。无目次页的,可依据书中主要内容自行编制目次。目次内容应存入txt或word文档中,录入对应的元数据目次字段中。目录索引制作完成后,需对书页进行倾斜校正、去噪、版心校正等额外处理,使图像更加清晰,然后生成电子书。 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
★五、数据库建设规范
|
1、记录标识号规范 记录标识号用于标识对象,是对象永久唯一的名称。记录标识号作为数字对象名称被嵌入在元数据中,并作为对象数据文件的第一级保存目录。 记录标识号共15位,由5段组成:机构登记号—主题代码—年月—批次—流水号。其中: 机构登记号:3位,辽宁省图书馆为023 主题代码:2位,古籍图书为03 批次:2位,当月内提交资源的批次号,每月的批次号以01起始。 示例: 2012年8月第一批提交的数据写成120801 2012年8月第二批提交的数据写成120802 2012年9月第一批提交的数据写成120901 流水号:4位,本批内数据顺序号,从0001、0002依次排列。若本批内数据记录超过9999条,由批次号自动加1,9999条之后的数据算做下一批次内数据,从0001开始编号。 记录标识号各段之间不加任何连接符。 示例:第一条数据为:023031208010001 2、对象数据文件格式规范 对象数据分为长期保存级和发布服务级,需一并提交两种级别的数据。长期保存级数据,图像分辨率为400dpi以上,要求保持原始文件技术参数不变的基础上适当进行纠偏等处理,文件格式为tiff,文件后缀为tif;其次为发布服务级数据,图像分辨率为400dpi,文件格式为jpeg,文件后缀为jpg。 3、对象数据文件结构规范 对象数据存储路径为:根目录\记录标识号\加工级别\卷册流水号\ 其中对象数据第一级目录为记录标识号,加工级别有两种:长期保存级和发布服务级,卷册流水号3位,从001开始顺序排序。如果该资源非多卷册,那么在加工级别下只有001一个文件夹,文件夹下对应存放着数据文件。 【示例】辽宁省图书馆(机构登记号为023)2012年8月提交的馆藏特色资源的第一批数据,元数据的存储路径为: 根目录\023031208010001\发布服务级\001\0001.jpg(第一本书,文件名为4位) \0002.jpg \....... \002\0001.jpg(第二本书,如无就则需要) ....... 4、数据完整性规范 要求提交的数据库必须包含完整的元数据、对象数据和数据提交说明表,存储结构规范。要求元数据和对象数据对应关系清晰明确,不可出现元数据与对象数据无法对应问题。 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
★六、元数据库标引及著录细则
|
1、著录信息源 (1)主要信息源 普通图书的主要信息源为题名页。 (2)规定信息源 普通图书各著录项目的规定信息源及其选取的先后顺序如下表;取自规定信息源之外的信息置于方括号内,必要时在附注项说明。
2、繁(异)体字的处理 古籍中文文献字体简繁异共存,著录时需将文献题名中的繁体字转换成简体字著录,异体字转换成现代通用简化字著录,但涉及到人物姓名的异体字照录。对于一些无法录入的生僻字、公式、符号,依据《国家图书馆征集数字资源建设规范》中文本类资源数字化规范的规定,可用“〓”表示。 3、出版年代的转换 著录时需对出版发行年月应按原题的纪年如实著录,然后把非公元纪年转换为公元纪年,在原题的纪年后著录公元纪年并加方括号。公元纪年用4位阿拉伯数字著录;以“民国”、“康德”、“大同”、“大正”、“昭和”等纪年的,年号照录,并换算成公元纪年。详细说明见下表。
4、著录细则
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
★七、主要技术指标 |
(一)数字化加工设备及附属配件要求 1. 拍照:数码有效像素不低于2100万像素。建议选择有效像素3300万像素以上的数码设备。 2. 扫描:扫描设备选择零边距或非接触式扫描仪。设备A3幅面的光学分辨率400dpi以上,CCD感光元件不低于5000像素点,色彩位数24bit。扫描设备使用无紫外线的同步冷光源。 备注:每日设备使用前进行色彩校正,以使文献色彩还原度高,真实。 (二) 数字化采集:数字化加工设备及附属配件要求 1. 托稿台:数码拍照的平台,平稳,固定,反光处理。 2. 扫描仪的自动评测被拍摄物重量,通过液压调节拍摄物与上下压平装置的空间和力度,控制拍摄物位置和平整度。 3. 背景布置:背景为中灰色的纸板,禁用暖色调的丝绒、毛毯。 (三) 图像采集要求 1. 古籍扫描避免透光,要求扫描图像清晰,不透字,能清楚显示文献水渍、霉斑等污迹。 2.扫描必须按文献装订的实际顺序进行,不允许重叶、缺叶,错叶、折叶等情况发生(原书缺叶、错叶除外)。补扫缺叶图像要与同册图像文件的大小一致,颜色接近。 2. 按1:1比例扫描,叶面外围要求留白,宽度不超过1-2厘米;书叶间距不超过0.1厘米。 3. 以原书的上边沿为基准,以中缝为中心线,保持原文献的天头、地脚的尺寸不变,左右两边的尺寸基本不变。 4. 原件表面有其他粘贴物件时,先将原件与粘贴物(即粘贴物覆盖于文献)一起扫描,然后将粘贴物掀开(不允许拆装),再次扫描原件。 5. 原件透背叶字迹,有虫蛀、漏洞时,需垫上古籍适用的衬纸后扫描。 6. 加工整理过程中,不得损坏原始文献;一律不得拆页扫描; 7. 分画幅扫描时,各扫描区域边缘必须有3厘米(含)以上的重复扫描区 (四)数字图像制作规格 1.古籍典藏级 位深:24位 扫描分辨率:文献小于10X12.5cm,用600DPI以上 文献大于10X12.5cm ,小于A3,用400 DPI 以上 拍照像素:2100~3300万像素 文件格式: TIFF(LZW):单页和多页的区分 RAW(sRAW)封装格式 色标卡:处理方式 首页加载 须提供“含彩页的印刷型文献,400dpi,32位以上深度、无损压缩”和“印刷型文献,灰度,400dpi,8位以上深度、无损压缩”两种TIFF格式扫描方式,由采购人确定每种文献的扫描方式; 2.发布服务级由辽宁省图书馆统一处理。 (五)数字图像文件处理 1.纠偏处理。对出现偏斜的图像进行纠偏处理,对方向不正确的图像进行旋转还原,以符合阅读习惯。 2.图像拼接。对大幅面文献进行分区扫描形成的多幅图像,服务级文件进行拼接处理,合并为一个完整的图像,以保证数字文件的整体性。 3.图像剪裁。拍摄物外边缘裁至1.0~1. 5厘米。 4.不能进行锐化或者图像增强处理,不能更改图像的颜色,尽量减少对图像文件的后期处理。 (六) 元数据要求 1.不同人员和机位录入数据后应合并为一个数据库文件。系统具有导入功能。应确认合并数据库文件字段和属性一致性。 2.表名称和字段内容逐项检查,覆盖面100% 。 3.字符编码。使用字符集为Unicode 5.0 UTF-8。 4.文字处理错误率不超过0.3‰。 5.标引信息应严格按照文献实际内容进行描述。标引词与标引对象文件应正确链接。 6.成交供应商须对加工及整理的每册(件)文献进行元数据标引,成交供应商提交的元数据以Excel电子文档的形式存在,标引内容包括:题名卷数、著者、版本、册数、存卷。 (七)加工存储要求 1.成交供应商需为采购人配备本次项目数字资源及其备份所需要的足额存储空间,成交供应商需提供存放供所有电子数据所需的磁盘阵列。 2.成交供应商需为采购人刻录光盘备份数据。刻录DVD光盘两套,光盘由成交供应商提供。目录应与其相应的扫描数据保存在同一张或一系列的光盘上,内容完整无遗漏。光盘表面标示编号及光盘内目录索引信息。 (八)管理 1.古籍出库要办理出库手续,填写古籍出库工作单,在专门人员的监护下直接送到工作场地暂存。存放地点、温湿度等应符合古籍保护的要求。 2. 扫描数据质量应符合国家珍贵古籍数字化标准,若有质量问题,应由成交供应商重新进行数字化加工,并承担由此产生的所有费用。 3. 成交供应商须严格按照以上要求对加工整理的数字化成果进行保存。验收确认的数据,成交供应商最终提供给采购人的加工产品为两种数据(TIFF图片和PDF文档)。 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
八、成品数据规格及质量 |
★1.图像扫描规格(1) 扫描方式: 1)扫描前根据国际色彩协会(International Color Consortium,简称ICC)标准,做加工设备的基本色彩校正,及针对各类型文献进行色彩校正; 2)全书采用真彩色方式扫描。 (2) 加工规格 1)色彩位深:24 位; 2)分辨率:400 DPI以上 3)图像格式:档案典藏级格式:TIFF 不压缩 发布服务级格式:JPG和PNG 2原始图像文件(1) 图像文件的规格 1)图书所有页采用400DPI以上的彩色方式扫描; 2)图像文件提供两种格式:以无损压缩TIFF格式提供,用于文件的长期保存。JPG格式和PNG,用于文件的发布服务。 (2)图像文件的质量要求 1)图像清晰,版心居中,无倾斜,无污点,无颜色失真现象; 2)同一本书的每一页图像版心大小要统一,图像尺寸要相同; 3)图像完整无残缺。 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
★九、成品数据储存空间 |
提供不少于10Tb的移动存储设备。 |