论文部分内容阅读
我国彩色发票版面特别复杂、多样,其上一些字符很小。而且用过的发票是由针式打印机打印而成,很多发票版面不清晰、已歪斜、已扭曲。在很多发票上还有不规范盖章、签字,因此如何正确确定发票图像上各种字符的位置、如何正确分割出不同字号字符、如何确定小字符的较高维有效特征、如何设计对应的高效的分类器、如何设计有效训练样本库等问题,都是到目前为止没有很好解决的难题。本文针对发票编号识别难题,以图像处理和模式识别等理论为基础,结合改进的版面分析和识别技术,提出了一种较为有效的发票号码识别算法。预处理阶段,首先采用了中值滤波技术等多种滤波技术相结合方式滤波,去除掉发票图像上的椒盐噪声。对于倾斜的发票图像,本文采用的是改进的方向白游程图像的倾斜校正方法。然后利用迭代阈值法对图像二值化,根据发票特征和灰度直方图的分析,设计发票号码的定位方法。最后采用水平垂直投影法对单个号码进行分割,采用模板法对字符进行归一化。特征提取阶段,对印刷体号码提取了40维有效特征,确保了小字号号码也能有足够的区别其它号码的特征。对号码的识别阶段,提出了改进的排序学习前向掩蔽模式分类器,优化了王守觉院士的排序学习前向掩蔽模型,使其分类效果更好。此外,论文在发票编号训练样本库和测试库的建立方面做了一定工作,建立了有400张发票编号训练样本库和300张发票编号测试库。它们是由40张发票编号训练样本初始库和30张发票编号测试初始库经加不同噪声、旋转不同角度和缩放不同比率而产生。基于该发票编号训练样本库而设计的排序学习前向掩蔽模式分类器有较高的识别率和良好的抗噪性能。实验表明,利用该模式分类器对号码的识别率明显高于传统的BP网络的识别率,抗噪性也优于BP网络,识别速度也有提高。