谈汉字识别技术在档案管理工作中的应用

来源 :管理学家·学术版 | 被引量 : 0次 | 上传用户:ldbeight
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:汉字识别技术(简称OCR)可以理解为是让计算机认字的技术。它通过光电信号转换,即文本数据。
  关键词:汉字识别;档案管理;应用
  一、汉字识别技术的应用价值
  汉字识别技术的应用价值主要体现在两个方面:
  一方面,把纸质档案上的固定信息变成可以被检索利用的活信息,为文本数据管理技术提供 丰富的数据源。
  首先,从库存档案的情况来看,近几十年来形成的大量印刷汉字档案记载了我们党和国家的 重要历史,对我国现代化事业的发展,对精神文明和物质文明的建设都有着非常重要的利用价值。但这部分档案的内容都没有文本数据,或者说都只是固定在纸质载体上的死信息。既使通过扫描以图像方式存储于计算机中,检索利用也有不便之处,难于满足现代社会对档案信息的多种利用需求。其次,从办公自动化的发展情况来看,每年接收的档案中仍然会有相当数量的档案没有文本文件,或为外单位来文,或为丢失损坏等。汉字识别技术的应用价值就是使这两大部分纸质档案上的固定信息变成可以被检索利用的活信息,为全文检索提供数据,使深层次的开发利用成为可能,更好地为现代化建设事业服务。
  另一方面,提供了一种新的档案目录数据的录入方式。
  应用计算机以来,汉字录入只有一种方式,即健盘录入。虽然目前汉字键盘录入的方法有许多种,而且日趋简便快捷,已是年轻人必备的职业技能,但是它毕竟属于一种技能,不仅需要反应灵敏,手指灵活,而且要熟记录入的原则、方法和要领。这对于在档案部门占有相当比例的中老年同志来说,掌握起来确有难度。因此,键盘录入方式仍然是影响一些档案部门建立档案目录信息数据库的因素之一。OCR软件为我们提供了一条新的途径。它通过“拖拉 ”的方式,将屏幕上文件的目录项如标题、文号、责任者等直接移植到档案目录数据库的相 应字段中去,简单易学,一看就会。遗憾的是手工“拖拉”速度较慢,而且需要即时扫描或 调用图像数据,所以单一利用这种方式录入档案目录,速度不及熟练录入员的键入速度。但它毕竟是一种新的录入方式,为建立档案目录信息数据库提供了一条前所未有的途径。而且 ,如果利用OCR软件同时建立新型的综合档案信息数据库,例如包括档案的文件目录、图像和文本等,效果就此较理想了。
  二、汉字识别后生成的文本数据的属性问题
  原始性是档案的基本属性。汉字识别后生成的文本数据是根据档案的本源信息,即固定在纸 质载体上的汉字信息进行加工处理:扫描、识别、校对、修改等工序后形成的复制加工品, 因此不具有档案的原始性。
  知识性是档案的又一个属性。汉字识别后生成的文本数据如果不计算人工校对后仍然可能存 在的微小误差,应该说具有与档案原件同等的内容,因此具有档案的知识性。
  汉字识别后生成的文本数据是将档案的内容以特殊的物理方式重新记录在特殊的载体之上, 比以文字的方式记录在纸质载体之上更具有便于传递、接收、存储、利用以及不磨损、不丢 失等属性。因此具有更强的信息性。
  汉字识别后生成的文本数据应该说,它是一种新型的档案一次信息的复制品或编研开发成果 。但作为一种新型的复制品或编研开发成果,因其生成的目的不同,又具有两种不同的属性 :当以提供利用为目的通过汉字识别建立文本数据库时,其文本数据具有类似于汇编类档案 编研成果的属性;当以编辑出版纸质的档案编研材料如大事记、组织机构沿革、文件汇编等 为目的进行汉字识别时,其文本数据不仅具有类似于档案编研成果的属性,而且具有档案原始性的基本属性,因为它们是印刷品或出版物的本源信息。
  由此可见,汉字识别后生成的文本数据是一种不同于传统档案属性的新型档案信息。
  三、汉字识别技术的应用方式
  汉字识别技术在档案管理工作中的应用,根据其目前的技术水平主要适用于近几十年来印刷 汉字档案内容的识别,图像、文本数据的形成、存储和目录数据的录入等项工作。主要的应用方式有:
  (一)利用者阅读纸质档案的内容之后,对其所需要的内容进行扫描和汉字识别,或打印出统一格式的利用摘录,或直接提供文本拷贝。这种利用方式的优点主要有:
  1、方便用户,可减少信息利用过程中的重复劳动;
  2、不给档 案人员增加建库的工作负担;
  3、节省建库所需的经费开支。
  其缺点主要有:
  1、不能为全文 检索提供数据,实现深层次开发档案信息资源的目的;
  2、存在对同一档案内容重复进行扫 描和汉字识别的可能性。
  (二)输入档案目录。这是加快档案目录信息数据库建设的一条新路,能够使更多的人员从事输入工作,但输入速度不甚理想,而且成本费用相对较高。
  (三)扫描、保存图像并提供利用,只针对利用者需要的图像内容进行汉字识别等利用服务。这种方式必须在已有文件目录的前提下使用。其优点主要有:一是具有提供原件和提高信息利用效率的双重优势;二是档案人员不承担汉字识别后生成的文本数据的维护工作。其缺点 主要有:一是具有同第一种利用方式的缺点。二是汉字识别技术要求图像的光学分辨率较高,一般为3000dpi,而一般图像的分辨率仅为150dpi,因此所需的存储空间较大,约是一般图像的2 、3倍,那么,所需的存储成本也要高得多。这种高代价的图像存储仅用来满足用户利用识别的需要似乎有点得不偿失。因此低分辨率的图像也能进行汉字识别,只是识别率相对较低而已。我们也曾做过对比实验,同一页印刷质量良好的B5纸型文件约500字,以300dpi进行扫描,识别率为100%;以150dpi进行扫描,识别率为99.4%(误识3字)。这对于一般用户而言无所谓的。
  (四)建立文本数据库。这种方式也应在已有文件目录的条件下使用。其优点主要有:
  1、节省存储空间和存储成本。仍以一页B5型纸约500汉字的文件为例,以文本方式存储约需1000字节;以图像方式存储约需25000字节。因此,同量汉字的文本方式存储比图像方式存储成本低得多。
  2、为全文检索提供数据,能够实现深层次开发利用档案信息资源的目的。
  其缺点主要有:
  1、建立文本数据库的工作量较大。
  2、不能满足用户阅读档案原件的需求。
  3、由于没有图像随时提供依据,不便于对文本数据的准确性进行核实。
  (五)输入目录并保存图像。
  (六)输入目录、建立文本数据库。
  (七)保存图像、建立文本件数据。
  (八)输入目录、保存图像并建立文本数据库。
  这是充分发挥OCR软件功能,深层次开发利用档案信息资源的应用方式。但工程量较大,人力、资金需求较多,建库周期较长。
  随着汉字识别技术水平的提高和应用的普及,可能还会产生新的应用方式,但无论使用哪一 种方式,都必须符合本单位档案管理工作的实际,统筹考虑档案状况、人员配备、经费能力、办公自动化水平、档案现代化建设发展规划等方面的因素,以切实提高档案信息资源开发利用能力为目的,这样才能收到事半功倍的效果。
其他文献
摘要:乡土景观是一个地区人文、历史以及自然环境的综合写照。在发展过程中,它受到许多因素的影响,是历史的沉淀和时代的产物。地震、洪涝等自然灾害对乡土景观的影响是巨大的,人类的社会活动对乡土景观的影响也是不容忽视的。中国社会经济发展迅速,小城镇发展步伐不断加快,如何处理好小城镇规划与乡土景观的关系是大家目前需要关注的问题。  关键词:乡土景观;小城镇规划  二十世纪以来,随着社会经济的发展,我国城市化
期刊
摘要:我国是一个有着五十六个民族的统一多民族国家,除汉族外,还有五十五个少数民族,各个民族有着悠久的历史。从遥远的古代起,中华各民族人民的祖先就劳动、生息、繁衍在中国的土地上,共同为中华文明和建立统一的多民族国家而贡献自己的才智。这些少数民族所形成的档案是我国档案资源的一个重要组成部分,这些档案作为中华民族的珍贵文化遗产,也是国家档案全宗不可分割的重要组成部分。我国西北部是少数民族聚居较多的地区,
期刊
摘要:本文通过对陈家山煤矿4#-2煤层423综放切眼采用大断面“高强组合锚杆、锚索补强支护”技术试验,有效地控制了松散煤层顶、帮,将松散煤体联合成一个整体,并形成了煤体自稳圈,使巷道顶、帮保持稳定,取得较好的支护效果。  关键词:大断面;组合锚杆;补强支护  引 言  铜川矿务局陈家山煤矿4#-2煤层厚10~25m,平均15.53m,煤层结构复杂,含有比较稳定的夹矸3~5层,煤层性硬而脆,易破碎,
期刊
摘要:1950年以来,世界旅游业以年均7.1%的速度蓬勃发展,表现出相当强的应变能力,给不同国家和社会带来了相当程度的影响,而中国是一个旅游资源极其丰富旅游发展前景看好的国家,又是一个农业大国,“三农”问题尤其突出,关系到整个现代化的全局。几十年的实践证明,旅游业是解决“三农”问题的有效途径,会给农村带来包括经济、社会和文化等方面的重要影响,而且正在成为我国农村的新兴产业,所以研究旅游业对中国农村
期刊
摘要:这几年青海油田勘探大发展,石油勘探区域面积持续扩大,距离基地也愈来愈远,为了缩短试油周期,各试油机组都配备了一套完整的水溶液中氯离子测定设备,但由于现场条件的限制,现场分析结果与化验室分析结果相差很大,通过现场调查分析、总结,造成现场分析结果准确率低的因素为仪器、药品和人为因素等几个方面。论文通过对现场氯离子误差分析,准确地找出误差的原因,并指出防范措施,在今后的试油工作中不出差错,使分析结
期刊
摘要:针对华能石洞口第一电厂两台改造后锅炉严重结焦的状况,分析阐明了现代大型燃煤电站锅炉燃烧生成的复合化合物共晶体熔点温度要比纯净氧化物的熔化温度低得多是结焦的根本原因,并就防止和改善炉膛结焦运行可采取的措施及其有效性进行讨论,强调了加强吹灰、负荷控制、煤粉细度、风量调整及煤质等方面的运行措施对于改善锅炉结焦的意义。  关键词:320MW机组;结焦;吹灰  一、锅炉结焦状况及其危害  华能上海石洞
期刊
摘要:随着国内劳力成本上升,海外突发事件增多,以及项目国家劳动保护主义的盛行,中国工人漂洋过海闯天下的模式己难以适应企业现代化管理的要求。因此,充分挖掘本土人力资源和社会关系,利用当地雇员语言及文化优势,积极推行海外用工属地化,做到为我所用,是海外工程承包的必由之路。  关键词:属地化;海外项目;新途径  一、属地化管理概念  属地化管理是指在海外跨国经营的过程中,按照国际规范和当地国的法律法规,
期刊
摘要:由于受全球经济化的影响,我国国有企业[国有企业是指企业全部资产归国家所有,并按《中华人民共和国企业法人登记管理条例》规定登记注册的非公司制的经济组织。不包括有限责任公司中的国有独资公司。]在国际经济轨道上面临着巨大机遇与挑战,国有企业作为国民经济的咽喉,它的效益影响着国内经济的发展,为此,加强国有企业政工干部的素质修养是必要的事情,也是时代发展的要求。  关键词:国有企业;政工干部;素质;能
期刊
摘要:建设新型家庭人口文化不仅有利于创新幸福家庭,也有利于创建和谐社会,是对家庭和社会发展都有益的活动。本文分析了新型家庭人口文化的内涵,并提出了在新时期做好新型家庭人口文化建设的路径,领导要高度重视新型家庭人口文化建设工作,计生委要抓好新型家庭人口文化宣传,并做好服务工作,使家庭真正从建设中受益。  关键词:家庭人口文化;计生委;路径  一、新型家庭人口文化的内涵  (一)新型家庭人口文化的含义
期刊
摘要:档案信息作为一种重要资源,其重要性已引起人们的普遍关注和广泛认同,大力开发利用档案信息资源已经非常现实地提到了档案部门的议事议程。开发利用好档案信息资源是我们档案工作一项急需探索和解决的重要课题。这是信息时代的要求,也是档案事业发展的必然结果。本文从强化档案法制意识,完善管理手段和提高服务质量三方面加以论述。  关键词:档案信息资源;开发;利用  引言  开发利用好档案信息资源是我们档案工作
期刊