论文部分内容阅读
经过五十多年的艰苦努力,人们在文字识别领域取得了众多成果,逐渐成熟的文字识别技术使得满足金融、邮电通信、新闻出版、办公自动化等领域对实用化OCR技术的迫切需求成为可能。虽然最近几年才开始尝试把OCR技术应用到金融票据和信息检索领域,但是由于强烈的市场需求的推动,这些研究方向已经逐渐成为文字识别领域的两大应用热点,大大推动了OCR理论和技术的进一步发展。在金融领域,OCR主要用于对金融票据上的信息进行识别,进而完成自动化的结算、后督等功能;在信息检索领域,主要利用OCR将纸质媒介上的信息转换为可供计算机处理的格式,使用户能够方便的检索和访问,同时提供进一步信息挖掘的基础。目前,各国的研究机构和公司都加紧研究面向实用的OCR技术,各方面对此都非常重视,北京邮电大学模式识别实验室(PRIS实验室)的金融票据OCR技术研究不仅与许多企业和银行部门展开了合作,也受到了国家863项目的支持。在这种背景下,本文的研究目的就是参考国内外最新研究进展,在PRIS实验室的技术积累基础之上,在“金融票据OCR系统中的成套关键技术”的国家863项目的支持下,对金融票据OCR系统中的关键技术进行研究和改进,并结合最新的信息检索领域的应用,提出相应的解决思路。本文进行的主要工作如下:1.对于汉字识别这样一个统计模式识别的问题来说,训练样本的数量和质量对于系统的识别性能是非常关键的。当训练样本的数量和质量不能满足需要时,我们无法正确估计样本的统计分布,无法得到最优的识别率。本文提出一种新的基于余弦整形变换的手写汉字训练样本生成方法,可有效提高现有手写汉字识别系统的识别性能。通过对原始训练样本进行基于余弦整形变换的样本生成和样本筛选,一定程度上缓解了某些条件下训练样本不足的问题,增强了识别器的扩展能力和鲁棒性。2.手写体汉字变形问题是手写体汉字识别中的关键问题,归一化处理是直接从汉字点阵图像上矫正手写变形、减小属于同一类别的不同模式之间差异的主要途径。但是,在对图像进行规整的过程中,也引进了可能会影响识别精度的锯齿等不利因素。为了更有效的提取手写汉字的特征,提高识别精度,本文提出了一种利用非线性归一化过程产生的坐标变换信息来提取手写汉字有效特征的方法。该方法通过非线性归一化获得各有效像素点在原汉字图像及规整后汉字图像中的坐标变换关系,在原图像上抽取各点特征,在归一化图像上进行网格的均匀划分和特征统计并形成用于分类的特征向量。该方法有效克服了以往先进行归一化预处理方法和动态网格方法的一些不足,兼顾了与传统结构特征提取方法的有效结合。3.研究了基于PCA和LDA的手写汉字特征压缩问题,通过特征压缩,使原先的高维特征能够高效地用于实际识别过程,在保证汉字识别率的情况下,特征矢量维数大大降低,使用基于LDA的方法在一定的压缩比率下,汉字识别率也得到了改善。4.金融票据中手写体金融汉字的识别这类问题,属于背景和字形情况都相对复杂的小字符集汉字识别问题,对识别器的区分能力和鲁棒性都有较强的要求。实验表明,使用马氏距离进行分类,通过适当选择参数,可以达到较高的精度,但运算量非常大,难以用于实际系统。本文提出渐进的马氏距离计算方法,并将其应用到金融汉字的识别系统中,在保证识别精度的同时,大大提高了系统的处理速度。在针对实际采集的金融票据中汉字的实验表明,该方法的效果是非常显著的。5.研究面向图像信息检索与图像信息过滤的OCR技术和系统框架,探索传统OCR技术如何更加高效应用,如何与信息检索和信息过滤系统紧密结合,提出基本的解决思路。