各县(市)区档案局、市直各部门、中省直有关单位:
为实现全市档案数字化建设工作的标准化、规范化,根据国家档案局和省档案局有关业务规范要求,结合我市实际,制定了《鞍山市档案数字化技术标准》,现印发给你们,请遵照执行。
二Ο一一年六月八日
鞍山市档案数字化技术标准
1 范围
本标准根据国家档案局《纸质档案数字化技术规范》(DA/T 31—2005)和《辽宁省档案数字化技术标准》制定,规定了纸质、照片、音频、视频档案数字化的主要技术要求。
本标准适用于鞍山市各级各类档案馆和机关档案室对上述各种载体档案的数字化处理及数字化成果的管理,其它单位可参照执行。
2 术语和定义
2.1 数字化
用计算机技术将模拟信号转换为数字信号的处理过程。
2.2 数字图像
表示实物图像的整数阵列。一个二维或更高维的采样并量化的函数,由相同维数的连续图像产生。
2.3 黑白二值图像
只有黑白两级灰度的数字图像。它对应于黑白两种状态的文字稿、线条图等。
2.4 连续色调静态图像
以多于两级灰度的不同浓淡层次或以不同颜色通道组合成的静态数字图像。
2.5 分辨率
单位长度内图像包含的点数或像素数,一般用每英寸点数(DPI)表示。
2.6 失真度
对档案进行数字化转换后,数字图像与档案原件在色彩、几何等方面的偏离程度。
2.7 可懂度
数字图像向人或机器提供信息的能力。
2.8 图像压缩
消除图像冗余或对图像近似的任一种过程,其目的是对图像以更紧凑的形式表示。纸质档案数字化过程中,较常见的有TIFF(G4)、JPEG等压缩格式。
2.9 采样频率
即取样频率,指每秒钟取得模拟信号样本的次数,用Hz或KHz来表示。
2.10 WAV格式
微软公司开发的一种声音文件格式,也叫波形声音文件,是最早的数字音频格式。
2.11 MP3
MPEG Audio Layer—3的缩写,是一种音频压缩技术,具有压缩程度高、音质好的特点。
2.12 MPEG—2标准
ISO/IEC制定的视频压缩编码标准,是针对标准数字电视和高清晰度电视在各种应用下的压缩方案和系统层的详细规定。
2.13 数码率
系统在单位时间内传送的数据量。在实时传输情况下,数码率等于取样频率与量化比特数的乘积。数码率的单位通常为Mbps,即兆比特/秒。
3 档案数字化基本要求
3.1 基本原则
纸质档案数字化的基本原则是使档案信息资源准确、方便、快捷地提供利用,使可以公开的档案信息资源得到共享,以满足社会对档案利用的需求。
3.2 数字化对象的确定原则
3.2.1 社会利用价值较高的档案优先数字化。
3.2.2 开放的档案优先数字化。
3.2.3 馆(室)有特色的档案优先数字化。
3.2.4 永久、长期保存的档案优先数字化。
3.2.5 确保档案信息资源的有机联系。
3.3 数字化范围
馆(室)藏各种载体的永久和长期档案。
4 基本环节
档案数字化的基本环节主要包括:档案整理、目录建库、档案扫描(转换)、数据处理、数据存储、数据质检、数据挂接、数据验收、数据备份、成果管理等。
5 过程管理
5.1 制定档案数字化的总体方案和技术路线与工作方法,确保档案数字化工作标准化、规范化、流程化。
5.2 建立档案数字化各环节的安全保密机制和工作制度,确保档案数字化工作的安全与高效。
5.3 档案数字化的各个环节均应进行详细的登记,并及时整理、汇总、装订成册,在数字化工作完成的同时建立起完整、规范的记录,并适时归档管理。
6 档案整理
6.1 档案实体整理
数字化处理之前,在不破坏档案原始构成的前提下确定档案数字化的范围,对不同载体档案进行合理分类,根据拟数字化档案的管理情况,对档案进行规范整理,剔除重份文件,重新编写卷内文件页码,之后方可进行扫描,估算数字化所需要的存储空间,并视需要做出标识,防止信息丢失。
6.2 拆除装订物
去除影响扫描工作的装订物,保证扫描的顺序,确保数字化后正确归卷并不损坏档案。
6.3 档案修复
破损严重、无法直接进行扫描(转换)的档案,应先进行技术修复,对音、视频档案在信号传播途中有必要对信号进行整形放大、滤波的,可酌情添加中间环节设备,确保数字化的质量。
6.4 建立处理单
制作并填写数字化加工处理单,全程监控扫描(转换)过程,并记录整理数字化过程中各种相关情况。
6.5 装订
图像质检完成后,拆除过装订物的档案应该按档案原貌及保管的要求重新装订,做到安全、准确、无遗漏。
7 目录建库
7.1 目录数据准备
按照《档案著录规则》(DA/T18)等要求,规范档案的目录内容。包括确定档案目录的著录项、字段长度和内容要求。如有错误或不规范的题名、责任者、时间、页号(数)、张号(数)、盘(盒)号等,应进行修改和补充,使其规范化。
7.2 数据格式与档案著录
按照《鞍山市文书档案目录数据库结构与交换格式(试行)》、《鞍山市照片、音频和视频档案目录数据库结构与交换格式(试行)》要求,建立档案目录数据库。
按照"目录数据库结构"要求,核对著录项目是否完整、著录内容是否规范、准确,发现不合格的数据应进行修改或重录。
8 技术要求
8.1 纸质档案数字化
8.1.1 硬件配置
8.1.1.1 计算机设备
应用性能稳定、配置较高的计算机作为数字化设备,酷睿2双核及同档次以上CPU,内存2G以上、硬盘500G以上,带1G以上显存独立显卡。
8.1.1.2 扫描设备
扫描仪的采用应根据各单位实体档案的具体情况选用。纸张状况好的档案选用A4幅面、彩色、分辨率600dpi以上、30页/分钟以上、48位色的高速扫描仪。纸张状况较差,以及过薄、过软或超厚的档案选用A3、A4幅面、彩色、分辨率600dpi以上、48位色的平板扫描仪。特定的无法拆卷,案卷质量较差的档案采用A3、A4幅面、彩色、分辨率600dpi以上、48位色的零边距扫描仪。
8.1.1.3 打印设备
采用A3或A4幅面激光打印机。
8.1.1.4 存储设备
采用1000G移动硬盘,用于数字化加工数据的转移、存储。
采用大容量计算机硬盘、磁盘阵列、磁带机等。
8.1.1.5 刻录和备份设备
采用性能稳定的DVD刻录机,用于数字化加工数据的脱机备份。
备份光盘应采用辽宁省档案局统一印制的DVD士R档案级专用光盘。
8.1.2 档案扫描
8.1.2.1 扫描方式
根据档案幅面的大小选择相应规格的扫描仪进行扫描。大幅面档案可采用大幅面数码平台扫描,或者缩微拍摄后的胶片进行数字化转换等,也可以采用小幅面扫描后的图像拼接方式处理。纸张状况较差,以及过薄、过软或超厚的档案,应采用平板扫描方式;纸张状况好的档案可采用高速扫描方式以提高工作效率。
8.1.2.2 扫描色彩模式
扫描色彩模式一般有灰度、彩色等,通常按《纸质档案数字化技术规范》(DA/T 31—2005)要求设置。需永久或长期保存的档案以及向档案馆移交的档案,应采用彩色模式进行扫描。
8.1.2.3 扫描分辨率
采用灰度、彩色几种模式对档案进行扫描时,其分辨率应≥200DPI。特殊情况下,如文字偏小、密集、清晰度较差等,可适当提高分辨率。如需要进行OCR识别的,扫描分辨率应≥300DPI。
8.1.2.4 扫描登记
认真填写档案扫描情况登记表单,登记扫描的页数,核对每份文件的实际扫描页数与档案整理时填写的文件页数是否一致,不一致时应注明具体原因和处理方法。
8.1.3 图像处理
8.1.3.1 图像数据质量检查
8.1.3.1.1 对扫描图像偏斜度、清晰度、失真度等进行检查,发现不符合图像质量要求时,应重新进行图像的处理。
8.1.3.1.2 由于操作不当,造成扫描的图像文件不完整或无法清晰识别时,应重新扫描。
8.1.3.1.3 发现文件漏扫时,应及时补扫并正确插入图像。
8.1.3.1.4 发现扫描图像的排列顺序与档案原件不一致时,应及时进行调整。
8.1.3.1.5 认真填写图像处理情况表单,记录质检结果和处理意见。
8.1.3.2 纠偏
对出现偏斜的图像进行纠偏处理,以达到视觉上基本不感觉偏斜为准。对方向不正确的图像应进行旋转还原,以符合阅读习惯。
8.1.3.3 去污
对图像页面中出现影响图像质量的杂质,如黑点、黑线、黑框、黑边等应进行去污处理。处理过程中应遵循在不影响可懂度的前提下展现档案原貌的原则。
8.1.3.4 图像拼接
对大幅面档案进行分区扫描形成的多幅图像,应进行拼接处理,合并为一个完整的图像,以保证档案数字化图像的整体性。
8.1.3.5 裁边处理
采用彩色模式扫描的图像应进行裁边处理,去除多余的白边,以有效缩小图像文件的容量,节省存储空间。
8.1.4 图像存储
8.1.4.1 存储格式
采用JPEG格式存储。
8.1.4.2 文件存储及命名方式
按"档号"建立文件夹方式存储,扫描图像文件按纸质文件页码顺序命名。
8.1.4.2.1 文书档案传统组卷方式将一卷档案若干扫描图像文件存放在一个文件夹中,其文件夹命名及层次 结构为:全宗号/全宗号-目录号/全宗号-目录号-案卷号
例如:0005/0005-01/0005-01-001。
每份原文的命名规则为:全宗号-目录号-案卷号-页号-流水号(即档号-流水号)
例如:0005-01-001-001-001
其中"页号"字段为每份文件的首页所在页号,"流水号"是指每页图像的流水编号。
8.1.4.2.2 文书档案简化方式将一盒文件若干扫描图像文件存放在一个文件夹中,其文件夹命名及层次结构为:全宗号/全宗号-保管期限代码/全宗号-保管期限代码-盒号
例如:0051/0051-Y/0051-Y-00001
每份原文的命名规则为:全宗号-保管期限代码-年度-盒号-件号-流水号(即档号-流水号)
例如:0051-Y-2002-00001-0001-001
其中保管期限代码:Y(永久)、C(长期)、D(短期)、30(30年)、10(10年)
8.2 照片档案数字化
8.2.1 硬件配置
8.2.1.1 计算机配置
采用性能稳定、配置较高的计算机作为数字化设备。
8.2.1.2 扫描设备
采用照片扫描仪,用于照片和底片的扫描。
8.2.1.3 打印设备
采用照片打印机。
8.2.1.4 存储和备份设备
存储采用大容量硬盘、磁盘阵列和磁带机等,脱机备份应采用辽宁省档案局统一印制的DVD士R档案级专用光盘。
8.2.2 档案扫描
8.2.2.1 扫描要求
扫描照片、底片能够按原件1:1比例还原,并能忠实反映照片、底片原貌(清晰度、色彩、黑白对比度等)。
8.2.2.2 扫描色彩模式
采用灰度和彩色两种模式扫描。黑白照片采用灰度模式扫描,彩色照片采用彩色模式扫描。
8.2.2.3 扫描分辨率
对于所扫描的照片,以常见5英寸照片大小(3.5×5英寸)为参照,扫描分辨率≥300DPI;对于所扫描底片以还原5英寸照片为参照,扫描分辨率≥1500DPI;对于其它太大或太小的照片,扫描分辨率可作相应的调整,照片幅面≥10英寸时,可以适当降低分辨率但不能低于200DPI;对于一些涉及重要历史事件和人物的照片,其扫描分辨率可在此基础上适当增加。
8.2.3 图像处理
8.2.3.1 对扫描图像偏斜度、清晰度、失真度、完整情况等进行检查,发现问题及时处理或重新扫描。
8.2.3.2 发现照片漏扫时,应及时补扫。
8.2.3.3 对扫描图像进行裁边处理,去除多余的边框。
8.2.3.4 对大幅面照片分幅扫描形成的多幅图像,进行拼接处理,合并为一个完整的图像。
8.2.3.5 认真填写图像处理情况表单,记录质检结果和处理意见。
8.2.4 图像存储
8.2.4.1 存储格式
采用TIFF格式存储。
8.2.4.2 文件存储及命名方式
照片档案扫描图像应按照片档号建立文件夹存储,扫描图像按照片档案顺序号命名。
8.2.4.2.1
按传统方式整理的照片档案将同一卷照片的若干扫描图像文件存放在一个文件夹中,其文件夹命 名及层次结构为:全宗号/全宗号-目录号/全宗号-目录号-案卷号
例如:0131/0131-01/0131-01-001
每份照片的命名规则为:全宗号-目录号-案卷号-照片号
例如:0131-01-001-001
8.2.4.2.2
按新方法整理的照片档案将同一册照片的若干扫描图像文件存放在一个文件夹中,其文件夹命名及层次 结构为:全宗号/全宗号-保管期限代码/全宗号-保管期限代码-册号
例如:0131/0131-Y/0131-Y-001
每份照片的命名规则:全宗号-保管期限代码-册号-张号
例如:0131-Y—001-00001
8.3 音频(录音)档案数字化
8.3.1 硬件配置
8.3.1.1 放音设备
根据音频档案原始载体型号配备相应的放音设备。
8.3.1.2 计算机设备
采用性能稳定、配置较高的计算机作为数字化设备。
8.3.1.3 存储和备份设备
存储采用硬盘、磁盘阵列和磁带机等,脱机备份应采用辽宁省档案局统一印制的DVD士R档案级专用光盘。
8.3.2 参数设置
配置相应采集软件的相关参数,根据所要采集格式设定采样率。音频档案数字化选用44.1kHz作为声音采样标准。
8.3.3 转换文件处理
8.3.3.1 清除与档案无关的信息。
8.3.3.2 根据需要合并相关音频信息,并生成最终文件。
8.3.4 文件存储
8.3.4.1 存储格式
推荐使用WAV、MP3格式文件。
8.3.4.2 存储及文件命名方式
音频档案数字化文件应按照《鞍山市照片、音频和视频档案目录数据库结构与交换格式(试行)》中规定的音频档号(全宗号-目录号-盘号)为其文件命名存储,检查数字化后的文件能否正常播放,检查无误后归档保存。
音频档案文件夹命名及层次结构为:全宗号/全宗号-目录号/全宗号-目录号-盘号
例如:0199/0199-06/0199-06-001
每份原文的命名规则为:全宗号-目录号-盘号-顺序号
例如:0199-06-001-001
8.4 视频(录像)档案数字化
8.4.1 硬件配置
8.4.1.1 采集压缩设备
采用专业级或广播级的硬件采集压缩设备,应同时具备AV复合端子、S端子、分量等多种视频输入接口,支持MPEG-2硬件压缩。
8.4.1.2 计算机设备
采用性能稳定、配置较高的计算机作为数字化设备。
8.4.1.3 放像设备
根据视频档案原始载体型号配备相应的放像设备。
8.4.1.4 存储和备份设备
存储采用大容量硬盘、磁盘阵列和磁带机等,脱机备份应采用辽宁省档案局统一印制的DVD士R档案级专用光盘。
8.4.2 参数设置
配置相应采集软件的相关参数,根据磁带视频制式,设定所采集的视频制式(PAL、NTSC、SECAM)。
8.4.3 视频转换
8.4.3.1 视频压缩编码规格采用MPEG—2标准。
8.4.3.2 压缩数码率应大于4MB/S。
8.4.3.3 视频压缩尺寸及帧率参照原影像档案标准。
8.4.4 文件存储
8.4.4.1 存储格式
采用MPEG—2文件格式进行存储,存储文件夹中应附带该格式的软件解码器。
8.4.4.2 存储及命名方式
单一视频文件大小不应超过1GB,超过1GB的应进行切割存储。对于物理性必须分割的视频,要求必须有1分钟的重叠区域,便于检索和衔接。视频档案数字化文件应按照《鞍山市照片、音频和视频档案目录数据库结构与交换格式(试行)》中规定的视频档号(全宗号-目录号-盘号)为其文件命名存储,检查数字化后的文件能否正常播放,检查无误后归档保存。
视频档案文件夹命名及层次结构为:全宗号/全宗号-目录号/全宗号-目录号-盘号
例如:0199/0199-07/0199-07-001
每份原文的命名规则为:全宗号-目录号-盘号-顺序号
例如:0199-07-001-001
9 数据挂接
9.1 档案数字化转换过程中形成的目录数据库和图像、音频、视频数据,经质量验收合格后,加载到数据库服务器。通过编制的程序或借助相应的软件,实现目录数据与相关联的数字图像、音频、视频批量的快速挂接。
9.2 认真填写档案数字化挂接检查情况登记表单,记录数据关联后的页(张、盘)数,核对每一份文件关联后的页(张、盘)数与档案整理、扫描(转换)时填写的页(张、盘)数是否一致,不一致时应注明具体原因和处理办法。
10 数据验收
10.1 目录数据验收
以一个全宗或多个目录为单位,随机抽查5%的目录数据,对著录的项目内容进行逐条检查。档号合格率需达到100%,其他项目抽检错误率应低于3‰。
合格率=抽检合格文件数/抽检文件总数×100%
10.2 图像、音频、视频数据验收
以一个全宗或多个目录为单位,随机抽查5%的目录数据对应的图像、音频、视频数据。图像、音频、视频应符合本规范中所规定的分辨率、采样频率、数码率、文件格式及色彩模式。图像、音频、视频文件的命名必须与目录中的照片号、底片号、音频档号、视频档号一致,一致率实现100%;图像、音频、视频的转换完整性要求达到100%,图像偏斜度、清晰度、整洁度,音频、视频的清晰度等技术指标,要求抽检错误率应低于3‰。
10.3 验收审核
验收"通过"的结论,必须经分管领导审核、签字后方有效。
10.4 验收登记
认真填写数字化验收登记表单。
11 备份
11.1 备份范围
经验收合格的完整数据应及时进行备份。
11.2 备份方式
为保证数据安全,备份载体应按国家档案局相关要求进行选择,可采用在线、离线相结合的方式实现多套备份,并注意异地保存。
11.3 数据检验
检验内容包括备份数据能否打开、数据信息是否完整、文件数量是否准确等。
11.4 备份标签
数据备份后应在相应的备份介质上做好标签,以便查找和管理。
11.5 备份登记
填写纸质档案数字化备份管理登记表单。
12 数字化成果管理
12.1 应加强对数字化成果的管理,确保其安全、完整和长期可用。
12.2 数字化成果提供网上检索利用时,应有制作单位的电子标识,并根据具体情况分别采用可下载或不可下载的数据格式。