论文部分内容阅读
随着我国经济的迅速发展以及全国票据交换系统的推广,使得金融票据凭证的使用量呈现了跨越式增长。现今我国的信息化已经进入全方位、多层次推进的新阶段,信息化也从对银行发展的“支持”阶段走向“支撑”阶段,由经济全球化带来的行业竞争不断加剧,国内金融业对票据自动化处理系统的需求也渐大,票据自动处理系统的市场前景十分广阔。票据自动处理系统以实现自动的票据输入与复核为目标,覆盖了从前端信息录入到后端事后监督的主要部分:直接从票据凭证影像中提取要素数据(如凭证号,账号,日期,金额,磁码等),在后台进行OCR流水识别,自动建立凭证索引,以便于支票图像存档检索;与银行事后监督系统相结合,生成待监督数据文件,通过与流水识别取得的业务系统中临柜帐务数据进行核对,替代操作人员完成事后监督工作;配有印章验证系统后,自动将凭证图像中的客户印章与系统中预留的印鉴进行比较,完成印章的真伪识别,提升银行业务处理效率。作为票据自动化处理过程中不可或缺的核心技术,票据OCR系统主要根据票据影像,来完成种类和主附件关系的判定,以及票据要素的自动提取以及识别,并将数据提供给后续的相关业务使用。在学科上票据OCR识别属于模式识别和人工智能的范畴,不仅对银行业有非常大的实用价值,而且容易在其他领域中得到转化应用,在国内外保险、海关、税务、教育、邮政、医务、政府行政管理等领域都有着广泛的应用前景。票据自动处理系统实际应用的关键在于,确保票据各识别域识别结果的高可靠性。本文对票据自动处理系统的各个模块进行相应的分析,对票据自动识别中的若干关键技术进行了深入的研究,并给出了相应的实现方案。主要研究工作可归纳为以下三部分:(一)在版面分析中,首先根据票据中框线目标的特点,提出了一种有效的框线检测与提取算法;其次,基于框线提取,采用基于框线相关性的相似度模型来计算票据框线间的相似度,提出了由粗到细的多类别票据版面判定的方法。在真实数据集上的试验结果表明了该算法的有效性。(二)预处理中,根据票据图像的特点1)通过综合字符笔画双边缘特征与背景抑制增强,来提取复杂背景下识别域子图中的字符目标;2)采用连通链结构来描述框线检测结果与字符目标提取结果融合后的框线区域,通过对交叠进行检测和标记,来判别字符与框线的交叠方式,并据此保留字符笔画去除框线干扰,还原待识别字串真实的面貌;3)结合轮廓分析与拓扑结构分析,来确定粘连数字串的分割策略,对无限制手写数字字符串进行有效的切分。最后采用视觉效果评判和基于字符识别的同类算法对比实验的评价方式,结果证实了提出的算法更为有效。(三)在手写体数字字符识别中,分别从构建代表训练样本集和组合分类器与特征的角度出发,对手写体数字识别进行了研究,提出了基于AP与LDA的手写阿拉伯数字识别算法,及组合结构特征和统计特征的手写数字识别算法。所提算法在仿真数据集以及现实应用中都取得了比较好的效果。本文最后简要介绍了票据自动识别子系统在银行票据后督系统和支票影像交换系统行内系统中的应用实例,均已在实际中得到应用,取得了良好的效果。