论文部分内容阅读
近年来,濮阳市档案馆以晋升河南“省一级”档案馆和“国家一级”档案馆为契机,加快馆藏档案数字化进程,唱响了“六部曲”,收到了“吹糠见米”的效果。
1 第一部曲:“目录数据录入”曲。根据国家档案局《市、县级国家综合档案馆测评细则》中“建立馆藏全部档案及资料目录数据库”的要求,结合馆藏实际,我们制定了数据录入工作的操作要求,严格要求录入人员按规范录入数据,保证数据录入质量。至2008年9月,馆藏全部档案目录案卷级68406条、文件级460290条、资料12097条,共计540793条全部录入数据库。同时,我们发动全局人员对全部目录进行一次大检查,及时更正了一些错误,并采用“人工校对”和“软件自动校对”的方式对目录数据库的建库质量进行了检查,以确保目录数据规范。
2 第二部曲:“扫描档案选择”曲。根据国家档案局《市、县级国家综合档案馆测评细则》中“建立照片档案和音、视频档案全文数据库”和“建立珍贵重要及利用频繁的纸质档案全文数据库”的要求,结合馆藏实际,我们建立了馆藏全部照片档案和音、视频档案全文数据库,共计照片档案2205张、音频档案7260分钟、视频档案864分钟;建立了“珍贵重要及利用频繁的纸质档案全文数据库”,对“民国档案”、“中共濮阳市委”、“濮阳市人民政府”、“中共濮阳地委”、“濮阳专员公署”、“中共安阳地委”、“安阳地区行政公署”等全宗的档案进行了数字化扫描录入,这些档案中有利用率较高的关于“知青政策”、“土地政策”方面的档案,有濮阳、安阳分设时解决遗留问题的档案,等等,总计297445页。
3 第三部曲:“色彩模式分辨”曲。扫描技术中最主要的是“色彩模式”选择和“分辨率”选择。《纸质档案数字化技术规范》建议需要OCR识别的图像文件,分辨率>200dpi,黑白图像采用200dpi就可以满足要求,彩色图像的扫描分辨率还可以低一些。分辨率越高,扫描后的图像就越清晰,但同时必须考虑到图像文件的大小。根据馆藏实际,我们确定了“以黑白扫描为主,对红头文件及其他带有红章的文件进行彩色扫描以更真实地显示档案原貌”的原则,具体标准是:(1)民国(1953年以前)档案:300 dpi,彩色扫描;(2)照片:300 dpi,黑白照片用灰度扫描,彩色照片用彩色扫描;(3)文字加照片:300dpi,彩色扫描;(4)文件上贴的纸条:300 dpi,黑白扫描;(5)建国(1954年以后)档案资料:300dpi,黑白扫描。
4 第四部曲:“文件存储格式”曲。《电子文件归档与管理规范》中推荐的通用文件格式为:文字型数据采用XML文档和RTF、TXT格式;扫描图像数据采用JPEG、TIFF格式。《纸质档案数字化技术规范》中规定:采用黑白二值模式扫描的图像文件,一般采用T1FF(G4)格式存储;采用灰度模式和彩色模式扫描的文件,一般采用JPEG格式存储。根据我们的实践,一般A4纸张扫描采用200—300dpi分辨率,黑白TIFF(G4)格式文件大小为30K,彩色JPEG格式文件大小为200K。根据馆藏实际,我们分别采用了如下存储格式存储在数据库中:(1)民国与1953年以前档案,采用JPG文件格式;(2)1954年以后、1983年以前档案,采用TIFF文件格式;(3)1984年以后档案,扫描后通过OCR识别,采用双层PDF文件格式。
5 第五部曲:“文件命名校对”曲。档案数字化加工后扫描件需要命名,为方便查找及记忆,我们采用由“全宗号(3位数) 保管期限代码(1位数) 案卷号(4位数) 文件号(3位数) 页号(3位数)”组成的14位文件命名模式。比如001(全宗号)-Y(保管期限代码)-0001(案卷号)-001(文件号)-001(页号)。同时,我们将案卷封面、卷内目录、备考表以同名图像文件扫描保存,并对扫描过程中出现的歪斜、黑边、命名错误、扫描格式错误、多扫、漏扫、扫描质量模糊等问题一一进行了校对、改正。
6 第六部曲:“目录原件挂接”曲。馆藏档案数字化的最后一个重要环节,是将纸质档案扫描件数据与相对应的目录数据进行连接,即目录原件挂接。我们以目录数据库为依据,将每一份文件扫描所得的一个或多个图像存储为一份或多份图像文件。将图像文件存储到相应文件夹时,需认真核查每一份图像文件的名称与目录数据库中该份实体的档号或资料编号是否相同。通过每一份图像文件的文件名与目录数据库中该份文件的档号或资料编号的一致性和唯一性,建立起一一对应的关联关系,实现目录数据库与图像文件的批量挂接。
1 第一部曲:“目录数据录入”曲。根据国家档案局《市、县级国家综合档案馆测评细则》中“建立馆藏全部档案及资料目录数据库”的要求,结合馆藏实际,我们制定了数据录入工作的操作要求,严格要求录入人员按规范录入数据,保证数据录入质量。至2008年9月,馆藏全部档案目录案卷级68406条、文件级460290条、资料12097条,共计540793条全部录入数据库。同时,我们发动全局人员对全部目录进行一次大检查,及时更正了一些错误,并采用“人工校对”和“软件自动校对”的方式对目录数据库的建库质量进行了检查,以确保目录数据规范。
2 第二部曲:“扫描档案选择”曲。根据国家档案局《市、县级国家综合档案馆测评细则》中“建立照片档案和音、视频档案全文数据库”和“建立珍贵重要及利用频繁的纸质档案全文数据库”的要求,结合馆藏实际,我们建立了馆藏全部照片档案和音、视频档案全文数据库,共计照片档案2205张、音频档案7260分钟、视频档案864分钟;建立了“珍贵重要及利用频繁的纸质档案全文数据库”,对“民国档案”、“中共濮阳市委”、“濮阳市人民政府”、“中共濮阳地委”、“濮阳专员公署”、“中共安阳地委”、“安阳地区行政公署”等全宗的档案进行了数字化扫描录入,这些档案中有利用率较高的关于“知青政策”、“土地政策”方面的档案,有濮阳、安阳分设时解决遗留问题的档案,等等,总计297445页。
3 第三部曲:“色彩模式分辨”曲。扫描技术中最主要的是“色彩模式”选择和“分辨率”选择。《纸质档案数字化技术规范》建议需要OCR识别的图像文件,分辨率>200dpi,黑白图像采用200dpi就可以满足要求,彩色图像的扫描分辨率还可以低一些。分辨率越高,扫描后的图像就越清晰,但同时必须考虑到图像文件的大小。根据馆藏实际,我们确定了“以黑白扫描为主,对红头文件及其他带有红章的文件进行彩色扫描以更真实地显示档案原貌”的原则,具体标准是:(1)民国(1953年以前)档案:300 dpi,彩色扫描;(2)照片:300 dpi,黑白照片用灰度扫描,彩色照片用彩色扫描;(3)文字加照片:300dpi,彩色扫描;(4)文件上贴的纸条:300 dpi,黑白扫描;(5)建国(1954年以后)档案资料:300dpi,黑白扫描。
4 第四部曲:“文件存储格式”曲。《电子文件归档与管理规范》中推荐的通用文件格式为:文字型数据采用XML文档和RTF、TXT格式;扫描图像数据采用JPEG、TIFF格式。《纸质档案数字化技术规范》中规定:采用黑白二值模式扫描的图像文件,一般采用T1FF(G4)格式存储;采用灰度模式和彩色模式扫描的文件,一般采用JPEG格式存储。根据我们的实践,一般A4纸张扫描采用200—300dpi分辨率,黑白TIFF(G4)格式文件大小为30K,彩色JPEG格式文件大小为200K。根据馆藏实际,我们分别采用了如下存储格式存储在数据库中:(1)民国与1953年以前档案,采用JPG文件格式;(2)1954年以后、1983年以前档案,采用TIFF文件格式;(3)1984年以后档案,扫描后通过OCR识别,采用双层PDF文件格式。
5 第五部曲:“文件命名校对”曲。档案数字化加工后扫描件需要命名,为方便查找及记忆,我们采用由“全宗号(3位数) 保管期限代码(1位数) 案卷号(4位数) 文件号(3位数) 页号(3位数)”组成的14位文件命名模式。比如001(全宗号)-Y(保管期限代码)-0001(案卷号)-001(文件号)-001(页号)。同时,我们将案卷封面、卷内目录、备考表以同名图像文件扫描保存,并对扫描过程中出现的歪斜、黑边、命名错误、扫描格式错误、多扫、漏扫、扫描质量模糊等问题一一进行了校对、改正。
6 第六部曲:“目录原件挂接”曲。馆藏档案数字化的最后一个重要环节,是将纸质档案扫描件数据与相对应的目录数据进行连接,即目录原件挂接。我们以目录数据库为依据,将每一份文件扫描所得的一个或多个图像存储为一份或多份图像文件。将图像文件存储到相应文件夹时,需认真核查每一份图像文件的名称与目录数据库中该份实体的档号或资料编号是否相同。通过每一份图像文件的文件名与目录数据库中该份文件的档号或资料编号的一致性和唯一性,建立起一一对应的关联关系,实现目录数据库与图像文件的批量挂接。