论文部分内容阅读
摘要:纸质档案的利用存在诸多不便,大数据时代对档案数据信息综合利用提出了更高的要求,通过档案数字化信息采集才能实现档案数据信息的综合利用,档案数字化信息的采集是一项非常重要的基本工作。存量档案作为常年积累下来的档案,存量档案数据信息的采集是档案工作的基础,工作流程包括扫描、著录、数据存储、校对、OCR文字识别等,每个环节严谨的工作制度和规范的工作纪律是保证准确率的基本条件,新技术的应用亦必不可少。
关键词:存量档案;数字化;扫描;OCR文字识别
一、引言
随着计算机信息化技术的应用和普及,大数据时代的到来,国家提出了“互联网+”的发展战略,适应了现实的迫切需求,现如今,不管是生活上(如网上购物、手机APP叫外卖、网上约出租车、共享单车),还是工作上(如财务信息系统、人事管理系统、质量管理系统、档案信息系统、科技信息系统),信息化为我们提供高效服务的同时,也在深刻的改变和影响着我们每一个人。进入大数据时代,大规模数字存储系统实现应用降低了数据存储的成本,许多以前无法存储的数字信息也可以保存下来[1],档案的数字化同样产生了大量的数字信息,在大数字时代的档案利用会越来越便捷。
档案信息化系统正是基于信息化大发展的背景下大力建设的,档案信息化系统可有效避免纸质档案在利用的过程中遭到损坏,以确保档案完整性,改善存量档案的存储环境,档案信息化系统的实现,使档案的利用效率更高,跨越了时间和空间的限制,节省了大量人力资源,有效降低了档案保管单位的利用成本[2],方便统计和进行远程查询。存量档案数据信息的采集是主要包括扫描、著录、数据存储、校对、OCR文字识别等工作流程,本文将进行详细分析。
二、存量档案扫描
(一)扫描准备
增量档案的信息化扫描工作是业主方的常态工作内容,扫描工作量比较固定,可以由业主方安排专门的人员完成,但在承担扫描工作前,一定要进行前期的培训,使其符合档案扫描岗位的要求。相对而言,存量档案的扫描工作量特别大,耗费时间长,业主方的工作通常是定人定岗,一般难以抽调大量人力完成存量档案的扫描工作。存量档案扫描应建立在预先制定的规则之上,最好外包至专业的扫描公司。扫描公司自身有一套具体的人员和工作质量管控的办法,执行力强,业主方需安排专人配合,操作档案信息管理系统,确保档案信息管理系统正确操作、保证信息安全,业主方内部人员进行扫描图片、著录条目的检查、修改、打印工作,第一轮检查工作完成后,将纠错结果返还至扫描公司,由扫描公司进行确认修改,修改后的内容再由业主方进行确认,执行严格到位的情况下,即可保证存量档案扫描工作的准确无误。
扫描场地要根据业主单位及扫描公司投入的设备及人力确定适宜的面积,准备扫描场地。扫描场地要具有良好的采光、通风条件以及消防、防盗设施,场地位置应距离库房较近,便于档案的调卷及还卷,防止运输过程中损坏档案,确保档案的安全[3]。
(二)扫描过程注意事项
档案信息化一定要保证质量的情况下,提高数量,即使档案纠错及质检非常严格,也难以完全應对错误百出的情况,不仅降低了档案信息化工作的准确度,也占用了大量从事纠错和质检的人力资源,降低了工作效率,再者,档案扫描工作完成后,即录入档案信息管理系统,如果在档案信息系统利用的过程中,发现电子档案的错误之处,返工的成本则会成倍增加。
扫描工作进行的过程中,要确保扫描仪、扫描软件的正确操作,选购扫描仪要注重仪器的扫描速度、图片效果及公司的售后服务,选购品质、技术和服务有保障的品牌,保证扫描图片的质量及正常运行,使图片曝光和色调合适,图片不容许歪斜。
存量档案通常年代久远,纸质档案存放时间长,可能会导致档案的质量较差,档案由于其不可再生的属性,且诸多档案原件具有法律效力和历史意义,在进行扫描时要特别小心谨慎,稍有不慎就可能造成损坏。根据存量档案的原文类型,扫描人员可选用黑白、灰度、彩色三种扫描方式。大多数档案图文是黑白文稿,可选用黑白扫描方式。对于存在灰度变化的档案图文,如黑白照片,则选用灰度扫描方式,许多档案存在手写方式不同、字迹不清的情况,亦须采用灰度扫描方式,增强其逼真性。彩色的档案图文,扫描时采用彩色扫描方式[4]。
(三)扫描文件存储
由于TIFF格式的图像具有较高的位信息,还能以无损压缩的方式存储,较适合作为保真要求高的档案图文,应用广泛。由于档案扫描后需占用大量的存储空间,需根据业主方要求及显示效果,设定合适的分辨率,一般大于200dpi,过大的分辨率不仅造成了存储空间的浪费,还会占用档案信息系统,使服务器负担过重,造成系统响应迟缓。
在应用的实践中,可以将TIFF格式的图像转换成PDF文件,这样可以将拥有一定数量页码的档案文件合成为一个PDF文件,既能降低档案电子文件所占用的空间,又能方便使用。由于档案文件种类繁多、数量非常多,服务器存储空间有限,不能大量长期存储,无法满足存量档案的存储要求。实际操作中,需采用多个移动硬盘进行存储,还需要备份,以免移动硬盘受到意外或不可抗力造成数据的损坏。采用光盘刻录存储,存储空间大,不易损坏,也不失为一种较好的存储方式。在实际应用中,采用异地备用存储的方式,能进一步保障档案数据存储的安全性。
(四)扫描过程监督
外包至扫描公司首先要保证档案信息的安全性,与扫描公司及具体在业主方实地工作的人员签订保密协议,扫描的数据不能带出业主方指定的地点,扫描公司所使用的电脑USB数据传输口应封掉,不应接入互联网,业主方应进行巡查及抽查,扫描公司应承担主体责任和义务。
许多存量档案是经过鉴定、整理后形成的长期的、系统的材料,自身具有完整性和系统性,切不可打乱了档案自身的内部联系,保证存量档案扫描后的电子文件齐全完整,是存量档案利用的前提[5]。对于存量档案中可能夹杂的一些涉密档案,在档案调出库房的同时,应由业主方所派人员即时检查捡出,由业主方内部进行处理。
关键词:存量档案;数字化;扫描;OCR文字识别
一、引言
随着计算机信息化技术的应用和普及,大数据时代的到来,国家提出了“互联网+”的发展战略,适应了现实的迫切需求,现如今,不管是生活上(如网上购物、手机APP叫外卖、网上约出租车、共享单车),还是工作上(如财务信息系统、人事管理系统、质量管理系统、档案信息系统、科技信息系统),信息化为我们提供高效服务的同时,也在深刻的改变和影响着我们每一个人。进入大数据时代,大规模数字存储系统实现应用降低了数据存储的成本,许多以前无法存储的数字信息也可以保存下来[1],档案的数字化同样产生了大量的数字信息,在大数字时代的档案利用会越来越便捷。
档案信息化系统正是基于信息化大发展的背景下大力建设的,档案信息化系统可有效避免纸质档案在利用的过程中遭到损坏,以确保档案完整性,改善存量档案的存储环境,档案信息化系统的实现,使档案的利用效率更高,跨越了时间和空间的限制,节省了大量人力资源,有效降低了档案保管单位的利用成本[2],方便统计和进行远程查询。存量档案数据信息的采集是主要包括扫描、著录、数据存储、校对、OCR文字识别等工作流程,本文将进行详细分析。
二、存量档案扫描
(一)扫描准备
增量档案的信息化扫描工作是业主方的常态工作内容,扫描工作量比较固定,可以由业主方安排专门的人员完成,但在承担扫描工作前,一定要进行前期的培训,使其符合档案扫描岗位的要求。相对而言,存量档案的扫描工作量特别大,耗费时间长,业主方的工作通常是定人定岗,一般难以抽调大量人力完成存量档案的扫描工作。存量档案扫描应建立在预先制定的规则之上,最好外包至专业的扫描公司。扫描公司自身有一套具体的人员和工作质量管控的办法,执行力强,业主方需安排专人配合,操作档案信息管理系统,确保档案信息管理系统正确操作、保证信息安全,业主方内部人员进行扫描图片、著录条目的检查、修改、打印工作,第一轮检查工作完成后,将纠错结果返还至扫描公司,由扫描公司进行确认修改,修改后的内容再由业主方进行确认,执行严格到位的情况下,即可保证存量档案扫描工作的准确无误。
扫描场地要根据业主单位及扫描公司投入的设备及人力确定适宜的面积,准备扫描场地。扫描场地要具有良好的采光、通风条件以及消防、防盗设施,场地位置应距离库房较近,便于档案的调卷及还卷,防止运输过程中损坏档案,确保档案的安全[3]。
(二)扫描过程注意事项
档案信息化一定要保证质量的情况下,提高数量,即使档案纠错及质检非常严格,也难以完全應对错误百出的情况,不仅降低了档案信息化工作的准确度,也占用了大量从事纠错和质检的人力资源,降低了工作效率,再者,档案扫描工作完成后,即录入档案信息管理系统,如果在档案信息系统利用的过程中,发现电子档案的错误之处,返工的成本则会成倍增加。
扫描工作进行的过程中,要确保扫描仪、扫描软件的正确操作,选购扫描仪要注重仪器的扫描速度、图片效果及公司的售后服务,选购品质、技术和服务有保障的品牌,保证扫描图片的质量及正常运行,使图片曝光和色调合适,图片不容许歪斜。
存量档案通常年代久远,纸质档案存放时间长,可能会导致档案的质量较差,档案由于其不可再生的属性,且诸多档案原件具有法律效力和历史意义,在进行扫描时要特别小心谨慎,稍有不慎就可能造成损坏。根据存量档案的原文类型,扫描人员可选用黑白、灰度、彩色三种扫描方式。大多数档案图文是黑白文稿,可选用黑白扫描方式。对于存在灰度变化的档案图文,如黑白照片,则选用灰度扫描方式,许多档案存在手写方式不同、字迹不清的情况,亦须采用灰度扫描方式,增强其逼真性。彩色的档案图文,扫描时采用彩色扫描方式[4]。
(三)扫描文件存储
由于TIFF格式的图像具有较高的位信息,还能以无损压缩的方式存储,较适合作为保真要求高的档案图文,应用广泛。由于档案扫描后需占用大量的存储空间,需根据业主方要求及显示效果,设定合适的分辨率,一般大于200dpi,过大的分辨率不仅造成了存储空间的浪费,还会占用档案信息系统,使服务器负担过重,造成系统响应迟缓。
在应用的实践中,可以将TIFF格式的图像转换成PDF文件,这样可以将拥有一定数量页码的档案文件合成为一个PDF文件,既能降低档案电子文件所占用的空间,又能方便使用。由于档案文件种类繁多、数量非常多,服务器存储空间有限,不能大量长期存储,无法满足存量档案的存储要求。实际操作中,需采用多个移动硬盘进行存储,还需要备份,以免移动硬盘受到意外或不可抗力造成数据的损坏。采用光盘刻录存储,存储空间大,不易损坏,也不失为一种较好的存储方式。在实际应用中,采用异地备用存储的方式,能进一步保障档案数据存储的安全性。
(四)扫描过程监督
外包至扫描公司首先要保证档案信息的安全性,与扫描公司及具体在业主方实地工作的人员签订保密协议,扫描的数据不能带出业主方指定的地点,扫描公司所使用的电脑USB数据传输口应封掉,不应接入互联网,业主方应进行巡查及抽查,扫描公司应承担主体责任和义务。
许多存量档案是经过鉴定、整理后形成的长期的、系统的材料,自身具有完整性和系统性,切不可打乱了档案自身的内部联系,保证存量档案扫描后的电子文件齐全完整,是存量档案利用的前提[5]。对于存量档案中可能夹杂的一些涉密档案,在档案调出库房的同时,应由业主方所派人员即时检查捡出,由业主方内部进行处理。