论文部分内容阅读
随着经济高速发展,金融业市场化进程日益加快,票据业务不断膨胀,票据数量与日俱增,而票据处理工作十分繁重。为了摆脱这种繁重重复的劳动,计算机识别发挥了重要的作用,票据自动识别系统的研究就显得非常必要。脱机手写体字符识别是当前光学字符识别(OCR)技术研究的热点之一,也是模式识别领域一个极具挑战性的课题,它在信函分拣、银行支票识别、统计报表处理以及手写文稿的自动输入等诸多方面发挥着巨大的作用。票据中的手写体字符的自动识别是这类系统的关键。本文主要是针对票据中手写体大小写金额识别的研究,目的在于能在该领域做些有益的探索。
首先是对票据图像进行预处理,通过二值化,去噪,平滑等一系列预处理工作,得到较利于识别的二值图像;通过版面分析,确定识别所需要的大小写金额区域;同时采用Hough变换去除框格线,从而得到待识别的手写体大小写金额字符串。
其次是对小写金额的识别,本文在研究了多种经典切分算法的基础上,采用了基于字符图像凹凸特性的数字串切分方法。该方法从根本上克服了已有算法需要细化、路径搜索等复杂处理的弊端,从而大大提高切分率,缩短切分时间。在数字识别阶段,采用了基于凹凸特性的整体结构特征的字符识别方法,利用了字符的整体结构特征,识别过程简单快速。
接着是对大写金额的识别,对大写金额的汉字图像进行了预处理方面的工作,包括平滑、去噪、汉字切分、汉字大小、位置归一化处理以及细化等处理;提取了弹性网格方向像素统计的特征,该方法根据汉字方块字的特点及笔划分布的统计特征,对手写体汉字进行横竖撇捺四个方向韵分解,并利用一系列的弹性网格对汉字分解后各分量的象素进行统计而提取特征。最后,采用了神经网络的方法来对汉字进行识别,设计了BP神经网络分类器的结构。
最后是分别对手写体小写金额和大写金额的识别结果进行分析,提出了关联相似识别策略,并将识别结果进行关联,在识别结果不一致的情况下采用一个Beyes分类器,将相似程度高的字符识别结果做为输出,从而提高整个字符识别的精确度。