论文部分内容阅读
档案局2012年以令的形式发布了《电子档案移交与接收办法》,根据媒体报道和笔者调研掌握的情况,各地电子档案收集的格式主要以图片格式为主,文本格式为辅。众所周知,图片格式的电子文件较文本格式虽更具有不可更改性,但因受自身格式的限制,只能通过题名进行检索,不能实现全文查询,这样就会影响电子档案的查全率和查准率,也与档案数字化的初衷大相径庭。而文本格式的电子文件虽然可以实现较为全面的全文检索,但其易于更改的属性又与电子档案管理保持原貌、保证安全的要求相违背。因此,多数档案部门往往从“确保原生电子公文的真实性、有效性、安全性”的角度出发,而“弃文从图”,要求“将原生电子公文以统一的数据格式(PDF格式)进行数据转换,实行集中管理”。笔者认为,做好原生电子档案的移交接收工作,必须注重规范其格式,应结合二者的优点,将收集到的“文”和“图”,形成双层PDF格式文件,使得两种单一的电子文件转化成“图文并茂”的形式,达到既能实现全文检索又能维持档案原貌的效果。
实践发现,如未同时收集文本电子文件而仅收集图片电子文件,制作双层PDF的方法虽然简单,但实际操作却较为繁琐。下面,我们介绍一种制作双层PDF格式电子文件的具体步骤:
1.扫描一页文档,命名为1.tif。
OCR识别软件,从图片中读取文件1.tif。
3.点击左上方菜单栏中的“识别”选项(图1)。
4.得到识别后的结果(图2)。左侧红色方框为扫描图片,右側红色圆框为识别后文本。对文本进行校对、
修改后,点击左上方菜单栏中的“WORD”选项。得到WORD格式的文本文件,保存并命名为2.doc。
实践发现,如未同时收集文本电子文件而仅收集图片电子文件,制作双层PDF的方法虽然简单,但实际操作却较为繁琐。下面,我们介绍一种制作双层PDF格式电子文件的具体步骤:
1.扫描一页文档,命名为1.tif。
OCR识别软件,从图片中读取文件1.tif。
3.点击左上方菜单栏中的“识别”选项(图1)。
4.得到识别后的结果(图2)。左侧红色方框为扫描图片,右側红色圆框为识别后文本。对文本进行校对、
修改后,点击左上方菜单栏中的“WORD”选项。得到WORD格式的文本文件,保存并命名为2.doc。