论文部分内容阅读
文字生成来源鉴定是司法鉴定的重要组成部分。尤其是计算机辅助鉴别,在文字鉴定大量筛查和疑难文字鉴定中发挥着重要作用。随着计算机技术的发展,对文字生成来源的计算机辅助鉴别要求,已越来越迫切。本研究通过文字图像识别,解决与文字生成来源有关的司法鉴定问题。但目前的经典文字识别方法,难以实现这一目的。在鉴别不同打印机打印的文字时,需要用相同字进行比较。现有的文字识别方法,需要提取文字结构特征,建立特征指标,进行指标的距离和相似度计算和比较。但相同字的特征都完全相同,特征提取法对此便显得无能为力。也正因为如此,这类印刷体文字鉴别的研究罕见报道。为了建立一种文字生成来源鉴别方法,在分析国内外文字识别发展状况的基础上,吸收现有文字识别方法中,建立指标,进行指标距离和相似度判别的快速运算优点,以及Casey和Nagy的以点阵像素为对象的文字识别计算,无须提取特征,结构信息精确,可用于任何文字识别的模板匹配法的优点。采用文字图像像素分布概率,作为基本指标,建立了另一种文字识别方法。并对该方法所提出的多种分区和优化判别指标,就文字识别与鉴别进行了实验。结果显示,该方法效果很好,是可行的。最后,将这些成果,用于司法案例鉴别。鉴别结果,与案件结果一致。本研究的主要成果和创新点有:
1.基于图像像素分布概率的文字识别法将文字图像二值化后,分成若干区域,统计各区域像素数,它们与总像素的比值,即区域像素分布概率,这一分布概率含有文字的结构信息和统计信息。通过分布概率差和相似度计算,可以准确识别文字的形态。用本方法对3500汉字进行识别,识别率达99.7%以上。对汉字的宋体、楷体、黑体、行楷,仿宋体、新魏体、方正舒体和隶书8种字体各100字,进行普适性识别实验,识别率达99%以上。对文字印刷质量欠佳,轻度倾斜和字迹潦草的汉字共800个进行抗干扰识别实验,识别率也在99%以上。实验表明,图像像素分布概率是一种全息性指标。它能精确捕获不同文字的结构和形态信息,是文字识别与鉴别的基本指标,也可作为其它类型图像分析的重要指标。
2.文字图像多种分区方式及其最小距离积与最大模糊相关度判别为了获得更可靠的文字区域像素分布概率,文字图像采用多种交叉分区。多种分区方式的每组指标距离之和相乘,即距离积,不但含有全字的结构和统计的可靠信息,也含有各指标的交互作用。距离积将整字之间的差距放大几个数量级,更便于筛选。用距离积最小标准,从大量模板文字(标准字)中筛选出的少数几个字,与待识别文字的像素分布概率,计算相关系数,再用模糊综合评判,在最大隶属性原则下计算最大模糊相关度,做出最终识别。整个识别过程,计算双重优化,联系密切,逻辑严密,自成体系。它是图像像素分布概率文字识别法的关键内容。在识别纠错实验中,均能正确识别国内外著名识别软件的错识字。在多种打印和印刷文字的识别实验中,它不受生成文字的机型的影响,识别率均能达到或超过97%。
3.基于图像像素分布概率的印刷体文字生成来源鉴别印刷体文字生成来源鉴别,是通过相同文字的差别比较,鉴别生成文字的工具和机器。但是,相同的文字,特征也相同。现有的计算机文字识别方法,无能为力。本研究的文字图像像素分布概率模糊鉴别法,能够准确鉴别。鉴别的方法是,随机选若干文字图像后,与已知来源(如打印机)的相同文字进行鉴别。鉴别过程及所用指标,与识别过程基本相同。图像像素分布概率文字识别基本方法,之所以可以用于鉴别,是因为图像像素分布概率是以文字各部位的像素为基础的,各种生成文字来源的工具(如打印机),在安装字库时,可能会出现微小的改变,打印过程也会产生扰动,加上工具结构和墨料的颗粒大小,都会影响生成文字的像素变化。像素分布概率必然也随之变化。这就产生了相同的文字由于不同文字生成源而出现差别。这种像素级的微小差别,只有用像素级的测量与计算,才可以鉴别出来。用这种鉴别方法,鉴别激光打印文字的鉴别率在96%以上,鉴别喷墨打印文字的鉴别率在99%以上,鉴别印刷文字的鉴别率在95%以上。鉴别手写签名的鉴别率在93%以上。
论文最后进行了总结。对图像像素分布概率的文字识别和鉴别方法的前景作了展望。