论文部分内容阅读
摘要:文章首先将文本型数字图像OCR识别工作的生命周期划分为数字扫描对象的获取、数字图像的生产、数字图像的处理和OCR文本识别等四个阶段,然后对其中数字扫描对象的获取阶段中OCR识别准确度的一系列影响因素进行分析,随后提出了针对性的提高策略。
OCR(Optical Character Recognition,光学字符识别)这一概念最早于1929年由德国科学家Tausheck提出[1]。随后,美国科学家Handel描述了利用光学技术对文字进行识别的概念模型,但这个模型直到计算机的诞生才进入实际应用。信息资源数字化工作中的OCR识别,其原理简单来说就是利用光学技术对文字和字符信息进行扫描识别,并将其转化为计算机内码,进而按照要求输出相应格式的文档信息,其工作流程如下图所示。OCR识别在信息资源数字化工作中应用时,其准确度一直是人们关注的焦点,因为OCR精确识别是保证数字化产品质量进而为整项工作提供用户保障的一个重要环节。
信息资源数字化工作中的OCR识别,其生命周期可以划分为数字扫描对象的获取、数字图像的生产、数字图像的处理和OCR文本识别等四个阶段[2]。以信息资源数字化OCR识别工作的生命周期为视角,对各阶段中OCR识别准确度的影响因素进行分析并提出相应的提高策略,能够为信息资源数字化项目人员提供有益参考,进而为向用户提供高质量的信息资源数字化产品和服务提供有效保障。本文主要对其中数字扫描对象的获取阶段中OCR识别准确度的一系列影响因素进行分析,并提出相应的提高策略。
目前,信息资源数字化项目主要是对二维平面介质型原始文献资料进行数字扫描。康奈尔大学图书馆将二维平面介质型文献资料区分为印刷型文本、手稿、半色调性信息资源、连续色调性信息资源和混合型信息资源等五种类型[3]。本文所讨论的数字图像,是指由印刷型文本经数字扫描所生成的数字图像中除去图、表之外的纯文本部分,文中称之为“文本型数字图像”。
一 、数字扫描对象的获取阶段OCR识别准确度影响因素分析
从目前国内外已有信息资源数字化项目的实施情况来看,在数字扫描对象的选择方面主要存在着两种思路:一种是直接对原始文献进行数字扫描或数码拍照,另一种是首先生成原始文献的缩微胶片,然后将缩微胶片作为原始文献的替代进行数字扫描或数码拍照。可见,在数字扫描对象的获取阶段中,原始文献质量及其缩微胶片质量是影响OCR识别准确度的两个主要方面。
1.原始文献质量方面的影响因素
1.1装订情况
信息资源数字化工作中,原始文献在进行数字扫描之前一般都已装订成册。如果直接将装订成册的原始文献按页依次扫描,在连接每相邻两页的书籍位置处容易出现阴影(尤其是当原始文献页数较多、纸张较厚时),如果阴影面积过大就会影响其附近字符信息的扫描质量。在实际操作中,数字化项目人员有时就需要先将装订成册的原始文献进行拆分,然后逐页依次扫描。但是在拆分过程中容易对原始文献造成物理损坏进而影响数字扫描质量,而且对部分珍稀文献进行拆分实际上也是不可取的。
1.2纸张的物理状况
1.2.1纸张的材质。部分原始文献所用纸张材质粗劣、压光不够平滑,导致其表面形成一些凸起的纤维颗粒或小块,对油墨的吸收不够均匀。承载于这类纸张上的字符信息在行与行之间、相邻字符之间以及同一字符的相邻笔画之间容易形成粘连。
1.2.2纸张的平整程度。部分原始文献在平时的流通利用以及数字化工作时的搬运过程中,在一些纸张的表面形成了褶皱,褶皱程度严重的部位在数字扫描时会形成扫描阴影。
1.2.3纸张的洁净程度。部分原始文献受平时流通利用过程中的人为因素以及保存过程中的环境因素影响,在一些纸张表面残留的污渍和附着的灰尘会对数字扫描成像质量造成干扰。
1.2.4纸张的完好性。部分原始文献因年代久远或在流通利用时人为地造成一些纸张残缺不全,损坏了其中一些字符信息的完整性。残缺字符图像信息的OCR识别准确度无法得到保证。
1.2.5纸张的透明性。部分原始文献所用纸张过于透明,导致其纸张背面的字符信息极易影响正面字符信息的数字扫描成像质量。
2.原始文献缩微胶片质量方面的影响因素
2.1缩微胶片的片基材质
缩微胶片,通常是指以三醋酸纤维素或聚酯为片基、含有银明胶涂层的胶片。老化实验和实际使用都已经证明,醋酸片基类缩微胶片相对容易老化、进而影响对承载于其上的字符图像信息的OCR识别。
2.2缩微胶片的冲洗质量
缩微胶片在冲洗过程中,主要有以下四个方面的因素会对承载于其上的字符图像信息的OCR识别造成影响[4]:
2.2.1缩微胶片在冲洗时因对显影液的药效和温度控制不当,容易导致胶片出现灰雾、污染和影像不清晰等现象。
2.2.2缩微胶片因冲洗后残留于其表面的定影剂数量过多(实验证明该临界值为1.4μg/c㎡),容易导致缩微胶片硫化变黄。
2.2.3缩微胶片在冲洗时因清洗不彻底,容易导致其颜色变黄、褪色甚至消失。
2.2.4缩微胶片在冲洗后的干燥环节里,或因干燥温度过低导致其表面留有水迹,造成胶片乳剂层粘连、滋生霉菌;或因干燥温度过高导致胶片折裂、卷曲、发脆。
2.3 缩微胶片的洁净程度
部分缩微胶片,受其保存环境或平时流通利用时的人为因素影响,在其表面容易吸附有灰尘或其他有机污染物,这些将会对字符图像信息的OCR识别造成干扰。
2.4 缩微胶片的完好程度
部分缩微胶片,受其保存环境或平时流通利用时的人为因素影响,在其表面形成了划伤折痕、甚至造成其物理形态的残损不全,这些都将会影响字符图像信息的OCR识别准确度。
二、数字扫描对象的获取阶段OCR识别准确度提高策略探析
1.原始文献质量方面
1.1尽量保持原始文献的装订形式
信息资源数字化工作过程中,应该遵循尽量避免对原始文献造成损伤这一原则。尤其是对于一些珍稀文献,副本数量有限(甚至是孤本),其原有形态的价值远大于其文献内容的价值,因此如果因数字化工作而对其装订形态造成损伤将会是十分不妥的。对于部分页数较多、纸张较厚的原始文献,在进行数字扫描扫描时应尽量选用对其适应性能比较强的平台式扫描仪。
1.2修复或改善纸张的物理状况
1.2.1选择纸张材质较好的版本或副本。同一文献的不同版本或同一版本文献的不同副本之间,在印刷纸张的材质方面可能会有所不同。因此,在文献内容得到保证的前提下,如果可以选择,应尽量选择纸张材质较好的原始文献进行数字化操作以保证良好的数字扫描质量。
1.2.2保证纸张的平整。在进行数字扫描操作之前,应该对原始文献的纸张表面进行平整处理,以避免因扫描阴影的出现影响数字扫描质量。
1.2.3保持纸张的洁净。原始文献纸张表面的灰尘和污渍会对对数字扫描设备造成损伤并且影响最终的数字扫描质量。因此,在进行数字扫描操作之前,应该采用物理或化学的方法去除原始文献纸张表面的灰尘、污渍等。
1.2.4修复纸张的完好性。对于部分纸张残损不全而又没有其他副本可以替代的原始文献,在进行数字扫描操作之前可以采取人工修补的方式,必要时应在缺损处如实添加所丢失的原文内容,以保证数字化处理之后文献信息内容的完整性。
1.2.5避免纸张过于透明。对于部分纸张过于透明的原始文献在进行数字扫描时可以在其纸张背面附垫一张用以增加纸张表面和背面对比效果的材料(比如黑色纸张),借此突出纸张表面的内容消除背面部分内容的干扰。
2.原始文献缩微胶片质量方面
2.1选用聚酯片基
如果是直接对已有的缩微胶片进行数字扫描的情况,在缩微胶片内容相同的情况下,应选择聚酯片基的缩微胶片作为数字扫描对象。如果是首先由数字化项目人员对原始文献进行缩微拍照,然后对生成的缩微胶片进行数字扫描的情况,应该在缩微拍照时就直接选用聚酯片基。
2.2严格控制缩微胶片的冲洗质量
2.2.1合理控制显影液的药效和温度。为防止缩微胶片出现灰雾、污染和影像不清晰等现象,显影液中的浓缩储存液(阿克发药液G231c)与清水的体积配比应为1:3,显影液的温度一般应控制在35℃左右为宜。
2.2.2严格控制缩微胶片表面的定影剂含量。实验和具体实践已经证明,为避免导致缩微胶片硫化变黄,残留于其表面的定影剂含量必须控制在1.4μg/c㎡以下。
2.2.3充分水洗。水洗,是指清洗去除缩微胶片乳剂层内残留的部分定影剂、可溶性银的铬盐和各种氧化生成物。该环节中必须保证清洗彻底,以避免残留在胶片乳剂层中的硫代硫酸盐与空气中的二氧化碳和水反应。因为上述化学反应生成物中的硫容易与影像中的银发生反应、亚硫酸容易被氧化,最终将导致使影像变黄或褪色消失[5]。
2.2.4合理干燥。经水洗之后的缩微胶片需要采用烘干的方法去除残留于其表面的水珠,该环节必须要根据实际情况合理控制烘干温度。如果烘干温度过低、烘干不彻底,就容易导致缩微胶片乳剂层粘连、滋生霉菌;如果烘干温度过高,则会容易导致缩微胶片卷曲、发脆、甚至折裂。
2.3保持缩微胶片表面的洁净
在对缩微胶片进行数字扫描之前,必须要清除其表面的灰尘及有机污渍。对于灰尘的清除,可以采用手工清洁或水溶液漂洗等物理方法;对于有机污渍的清除,可以根据其化学成分采用相应的有机溶剂进行清洗,但必须要保证所采用的有机溶剂及其与有机污渍的反应不会对缩微胶片造成损伤。
2.4修复缩微胶片的完好性
对于部分物理状态残损不全而又没有其他副本可以替代的缩微胶片,为保证数字扫描图像的质量,必须采取相应的处理措施以尽量修复缩微胶片的完好性。可以采取的措施有:修理斑点和断裂的片孔、修描胶片、换用标准牵引片等。该环节的所有操作,都必须在确保缩微胶片已有信息内容不会遭到损失的前提下才能展开。
参考文献:
[1]Schantz, Herbert F. The History of OCR, Optical Character Recognition[J]. Recognition Technologies,1982,(2):78-81.
[2]臧国全. 文本数字化图像OCR识别的准确度测度实验与提高[J].图书情报知识,2010(03):62-67
[3]Cornell University Library.Document Types.[2011-11-09].
http://www.library.cornell.edu/preservation/tutorial/conversion/conversion-01.html.
[4]曹艳,黄秀华.必须重视缩微品的储存、保管和开发利用[J].缩微技术,1999(1):10-13.
[5]徐杰.浅谈缩微胶片冲洗[J].缩微技术,2001(04):30-31.
OCR(Optical Character Recognition,光学字符识别)这一概念最早于1929年由德国科学家Tausheck提出[1]。随后,美国科学家Handel描述了利用光学技术对文字进行识别的概念模型,但这个模型直到计算机的诞生才进入实际应用。信息资源数字化工作中的OCR识别,其原理简单来说就是利用光学技术对文字和字符信息进行扫描识别,并将其转化为计算机内码,进而按照要求输出相应格式的文档信息,其工作流程如下图所示。OCR识别在信息资源数字化工作中应用时,其准确度一直是人们关注的焦点,因为OCR精确识别是保证数字化产品质量进而为整项工作提供用户保障的一个重要环节。
信息资源数字化工作中的OCR识别,其生命周期可以划分为数字扫描对象的获取、数字图像的生产、数字图像的处理和OCR文本识别等四个阶段[2]。以信息资源数字化OCR识别工作的生命周期为视角,对各阶段中OCR识别准确度的影响因素进行分析并提出相应的提高策略,能够为信息资源数字化项目人员提供有益参考,进而为向用户提供高质量的信息资源数字化产品和服务提供有效保障。本文主要对其中数字扫描对象的获取阶段中OCR识别准确度的一系列影响因素进行分析,并提出相应的提高策略。
目前,信息资源数字化项目主要是对二维平面介质型原始文献资料进行数字扫描。康奈尔大学图书馆将二维平面介质型文献资料区分为印刷型文本、手稿、半色调性信息资源、连续色调性信息资源和混合型信息资源等五种类型[3]。本文所讨论的数字图像,是指由印刷型文本经数字扫描所生成的数字图像中除去图、表之外的纯文本部分,文中称之为“文本型数字图像”。
一 、数字扫描对象的获取阶段OCR识别准确度影响因素分析
从目前国内外已有信息资源数字化项目的实施情况来看,在数字扫描对象的选择方面主要存在着两种思路:一种是直接对原始文献进行数字扫描或数码拍照,另一种是首先生成原始文献的缩微胶片,然后将缩微胶片作为原始文献的替代进行数字扫描或数码拍照。可见,在数字扫描对象的获取阶段中,原始文献质量及其缩微胶片质量是影响OCR识别准确度的两个主要方面。
1.原始文献质量方面的影响因素
1.1装订情况
信息资源数字化工作中,原始文献在进行数字扫描之前一般都已装订成册。如果直接将装订成册的原始文献按页依次扫描,在连接每相邻两页的书籍位置处容易出现阴影(尤其是当原始文献页数较多、纸张较厚时),如果阴影面积过大就会影响其附近字符信息的扫描质量。在实际操作中,数字化项目人员有时就需要先将装订成册的原始文献进行拆分,然后逐页依次扫描。但是在拆分过程中容易对原始文献造成物理损坏进而影响数字扫描质量,而且对部分珍稀文献进行拆分实际上也是不可取的。
1.2纸张的物理状况
1.2.1纸张的材质。部分原始文献所用纸张材质粗劣、压光不够平滑,导致其表面形成一些凸起的纤维颗粒或小块,对油墨的吸收不够均匀。承载于这类纸张上的字符信息在行与行之间、相邻字符之间以及同一字符的相邻笔画之间容易形成粘连。
1.2.2纸张的平整程度。部分原始文献在平时的流通利用以及数字化工作时的搬运过程中,在一些纸张的表面形成了褶皱,褶皱程度严重的部位在数字扫描时会形成扫描阴影。
1.2.3纸张的洁净程度。部分原始文献受平时流通利用过程中的人为因素以及保存过程中的环境因素影响,在一些纸张表面残留的污渍和附着的灰尘会对数字扫描成像质量造成干扰。
1.2.4纸张的完好性。部分原始文献因年代久远或在流通利用时人为地造成一些纸张残缺不全,损坏了其中一些字符信息的完整性。残缺字符图像信息的OCR识别准确度无法得到保证。
1.2.5纸张的透明性。部分原始文献所用纸张过于透明,导致其纸张背面的字符信息极易影响正面字符信息的数字扫描成像质量。
2.原始文献缩微胶片质量方面的影响因素
2.1缩微胶片的片基材质
缩微胶片,通常是指以三醋酸纤维素或聚酯为片基、含有银明胶涂层的胶片。老化实验和实际使用都已经证明,醋酸片基类缩微胶片相对容易老化、进而影响对承载于其上的字符图像信息的OCR识别。
2.2缩微胶片的冲洗质量
缩微胶片在冲洗过程中,主要有以下四个方面的因素会对承载于其上的字符图像信息的OCR识别造成影响[4]:
2.2.1缩微胶片在冲洗时因对显影液的药效和温度控制不当,容易导致胶片出现灰雾、污染和影像不清晰等现象。
2.2.2缩微胶片因冲洗后残留于其表面的定影剂数量过多(实验证明该临界值为1.4μg/c㎡),容易导致缩微胶片硫化变黄。
2.2.3缩微胶片在冲洗时因清洗不彻底,容易导致其颜色变黄、褪色甚至消失。
2.2.4缩微胶片在冲洗后的干燥环节里,或因干燥温度过低导致其表面留有水迹,造成胶片乳剂层粘连、滋生霉菌;或因干燥温度过高导致胶片折裂、卷曲、发脆。
2.3 缩微胶片的洁净程度
部分缩微胶片,受其保存环境或平时流通利用时的人为因素影响,在其表面容易吸附有灰尘或其他有机污染物,这些将会对字符图像信息的OCR识别造成干扰。
2.4 缩微胶片的完好程度
部分缩微胶片,受其保存环境或平时流通利用时的人为因素影响,在其表面形成了划伤折痕、甚至造成其物理形态的残损不全,这些都将会影响字符图像信息的OCR识别准确度。
二、数字扫描对象的获取阶段OCR识别准确度提高策略探析
1.原始文献质量方面
1.1尽量保持原始文献的装订形式
信息资源数字化工作过程中,应该遵循尽量避免对原始文献造成损伤这一原则。尤其是对于一些珍稀文献,副本数量有限(甚至是孤本),其原有形态的价值远大于其文献内容的价值,因此如果因数字化工作而对其装订形态造成损伤将会是十分不妥的。对于部分页数较多、纸张较厚的原始文献,在进行数字扫描扫描时应尽量选用对其适应性能比较强的平台式扫描仪。
1.2修复或改善纸张的物理状况
1.2.1选择纸张材质较好的版本或副本。同一文献的不同版本或同一版本文献的不同副本之间,在印刷纸张的材质方面可能会有所不同。因此,在文献内容得到保证的前提下,如果可以选择,应尽量选择纸张材质较好的原始文献进行数字化操作以保证良好的数字扫描质量。
1.2.2保证纸张的平整。在进行数字扫描操作之前,应该对原始文献的纸张表面进行平整处理,以避免因扫描阴影的出现影响数字扫描质量。
1.2.3保持纸张的洁净。原始文献纸张表面的灰尘和污渍会对对数字扫描设备造成损伤并且影响最终的数字扫描质量。因此,在进行数字扫描操作之前,应该采用物理或化学的方法去除原始文献纸张表面的灰尘、污渍等。
1.2.4修复纸张的完好性。对于部分纸张残损不全而又没有其他副本可以替代的原始文献,在进行数字扫描操作之前可以采取人工修补的方式,必要时应在缺损处如实添加所丢失的原文内容,以保证数字化处理之后文献信息内容的完整性。
1.2.5避免纸张过于透明。对于部分纸张过于透明的原始文献在进行数字扫描时可以在其纸张背面附垫一张用以增加纸张表面和背面对比效果的材料(比如黑色纸张),借此突出纸张表面的内容消除背面部分内容的干扰。
2.原始文献缩微胶片质量方面
2.1选用聚酯片基
如果是直接对已有的缩微胶片进行数字扫描的情况,在缩微胶片内容相同的情况下,应选择聚酯片基的缩微胶片作为数字扫描对象。如果是首先由数字化项目人员对原始文献进行缩微拍照,然后对生成的缩微胶片进行数字扫描的情况,应该在缩微拍照时就直接选用聚酯片基。
2.2严格控制缩微胶片的冲洗质量
2.2.1合理控制显影液的药效和温度。为防止缩微胶片出现灰雾、污染和影像不清晰等现象,显影液中的浓缩储存液(阿克发药液G231c)与清水的体积配比应为1:3,显影液的温度一般应控制在35℃左右为宜。
2.2.2严格控制缩微胶片表面的定影剂含量。实验和具体实践已经证明,为避免导致缩微胶片硫化变黄,残留于其表面的定影剂含量必须控制在1.4μg/c㎡以下。
2.2.3充分水洗。水洗,是指清洗去除缩微胶片乳剂层内残留的部分定影剂、可溶性银的铬盐和各种氧化生成物。该环节中必须保证清洗彻底,以避免残留在胶片乳剂层中的硫代硫酸盐与空气中的二氧化碳和水反应。因为上述化学反应生成物中的硫容易与影像中的银发生反应、亚硫酸容易被氧化,最终将导致使影像变黄或褪色消失[5]。
2.2.4合理干燥。经水洗之后的缩微胶片需要采用烘干的方法去除残留于其表面的水珠,该环节必须要根据实际情况合理控制烘干温度。如果烘干温度过低、烘干不彻底,就容易导致缩微胶片乳剂层粘连、滋生霉菌;如果烘干温度过高,则会容易导致缩微胶片卷曲、发脆、甚至折裂。
2.3保持缩微胶片表面的洁净
在对缩微胶片进行数字扫描之前,必须要清除其表面的灰尘及有机污渍。对于灰尘的清除,可以采用手工清洁或水溶液漂洗等物理方法;对于有机污渍的清除,可以根据其化学成分采用相应的有机溶剂进行清洗,但必须要保证所采用的有机溶剂及其与有机污渍的反应不会对缩微胶片造成损伤。
2.4修复缩微胶片的完好性
对于部分物理状态残损不全而又没有其他副本可以替代的缩微胶片,为保证数字扫描图像的质量,必须采取相应的处理措施以尽量修复缩微胶片的完好性。可以采取的措施有:修理斑点和断裂的片孔、修描胶片、换用标准牵引片等。该环节的所有操作,都必须在确保缩微胶片已有信息内容不会遭到损失的前提下才能展开。
参考文献:
[1]Schantz, Herbert F. The History of OCR, Optical Character Recognition[J]. Recognition Technologies,1982,(2):78-81.
[2]臧国全. 文本数字化图像OCR识别的准确度测度实验与提高[J].图书情报知识,2010(03):62-67
[3]Cornell University Library.Document Types.[2011-11-09].
http://www.library.cornell.edu/preservation/tutorial/conversion/conversion-01.html.
[4]曹艳,黄秀华.必须重视缩微品的储存、保管和开发利用[J].缩微技术,1999(1):10-13.
[5]徐杰.浅谈缩微胶片冲洗[J].缩微技术,2001(04):30-31.