论文部分内容阅读
【摘 要】在邮编图像分割后需要提取单个数字字符进行识别,针对分割后的图像容易出现断笔的问题,提出首先应用形态学进行相关操作,然后再提取单个字符,最后对实验结果进行了分析,这将为邮编自动识别效果的提高提供基础。
【关键词】形态学;邮编;手写数字;单个字符;提取
邮编的自动识别一直是邮政业务不可回避的问题,目前对于正楷或近似正楷邮编的识别已取得较好结果,但是由于人们书写习惯差异,在实际识别过程中仍存在不少问题。因此,相关研究一直是一个研究的热点。2005年尹朝庆等人对手写邮编图像预处理后提取所得邮编数字,用一种神经网络的模糊识别,它的识别率达90%以上[1]。2008年顾妍午等人运用改进的粗网格特征提取法,对神经网络的输入简化,采用LM算法的BP神经网络来进行学习,验证了此算法在手写邮编识别中的有效性[2]。2009年蒋先刚等人用颜色掩膜和Hough变换对邮编定位,利用信息熵理论提出字符综合特征选取的融合方案,设计与之相关的可视数据库系统,提高识别率、程序设计效率和信封自动分拣率及可行性[3]。2009年崔海霞等人用Gabor小波函数滤波器提取特征,采用PCM特征向量选择降低识别维数,识别结果较高,并验证了SVM的多类分类方法[4]。2011年代小红运用一种色素的二值化方法对传感器获得的24位邮政编码图提取边框格线和邮件字符的二值图,避免其分割的困难,使用手写数字多种方法的复合提高了识别率[5]。在已有的邮编识别中,首先要对邮编图像进行分割,然后在识别前首先要提取单个字符,最后才能进行识别。因此,单个字符的提取是邮编数字自动识别的基础。
1.单个字符的提取
在获取图像后,按现有的图像处理理论一般都首先需要进行图像分割,在邮编自动识别中主要就是将手写的邮编数字与原有信封的背景区分开。如某邮件邮编图像的分割图如图1所示。图中黑色的像素点对应手写的数字,白色的像素点表示信封背景。
从图1可以发现,由于信封质地等因素的影响,在分割结果上数字字符在图像中含有明显的噪点,一些数字也出现明显断笔,这会直接影响单个数字字符提取的完整性,进而降低数字识别的质量。所以,单个字符的提取主要是针对这样的问题进行相关的操作,减少因此带来的误差。
2.形态学操作后单个字符的提取
在现有图像处理技术中,形态学处理一般被认为可更有效的表达描述图像。如通过简单的腐蚀操作能消除邮编分割图像中各个区域的边界点,使邮编数字缩小的同时消除小于结构元素的噪声点;简单的膨胀运算能将与邮编数字接触的所有背景点合并到邮编数字中,使邮编数字增大,可添补邮编数字中的空洞。
为去除邮编图像中分割的噪声并减少断笔现象,可以首先再去较小的结构元素进行腐蚀操作去噪声,然后选择较大的结构元素进行膨胀操作减少断笔现象,然后再进行一次开操作(即以同样的结构元素先腐蚀后膨胀)使得数字字符的轮廓变得光滑,同时断开笔画间较为狭窄的间断和消除细的突出部分。某幅图像的处理结果如图2所示。
3.实验结果与分析
采用上述方法进行实验,对45幅分割后的邮编图像进行形态学操作,然后提取单个字符块,以单个数字字符无断笔为标准,在32幅图像中成功的分割出单个字符块。
实验结果表明形态学运算能成功的消除图像中无意义的噪声点,同时起到了一定的平滑效果,图像质量有了很大的改变。在这样的提取方法中,由于形态学处理的效果好坏关系到字符块分割与数字字符识别结果的好坏,在形态学处理过程中参数的选取至关重要,尤其是在结构元素及面积大小的选择上。结构元素值过大不易保持目标的形状特征,值过小则不能把断笔处连接起来。另外,形态学操作依然会受到书写风格的影响,比如笔画的粗细、断笔距离等。
4.小结
針对邮编分割图像存在噪音干扰且断笔的现象,提出通过形态学操作减少这些误差对单个字符提取的影响,这位邮编自动识别效果的提高提供了理论基础。
参考文献:
[1] 尹朝庆,宋化,陈波. 手写邮政编码的模糊识别方法[J].武汉理工大学学报,2005,27(2):154-157.
[2] 顾妍午,李平,陶文华,田绍宽. 基于改进BP神经网络的手写邮政编码识别[J].辽宁石油化工大学学报,2008,28(1):52-55.
[3] 蒋先刚,赵莹,李林. 基于综合特征的字符模板库的建立与训练[J].华东交通大学学报,2009,26(6):74-78.
[4] 崔海霞,杨红,刘佐濂. MNIST邮政编码手写数字识别的研究[J].广州大学学报,2009,4(8):14-18.
[5] 代小红.模糊模式的手写数字识别技术研究与实现[J].重庆大学报,2011,34(6):117-122.
基金项目:
广西工学院2011 年科学基金项目(院科自1166102)
作者简介:
周晓华(1976-),硕士,广西科技大学电气与信息工程学院,副教授,主要从事图像处理与智能控制方向的研究
【关键词】形态学;邮编;手写数字;单个字符;提取
邮编的自动识别一直是邮政业务不可回避的问题,目前对于正楷或近似正楷邮编的识别已取得较好结果,但是由于人们书写习惯差异,在实际识别过程中仍存在不少问题。因此,相关研究一直是一个研究的热点。2005年尹朝庆等人对手写邮编图像预处理后提取所得邮编数字,用一种神经网络的模糊识别,它的识别率达90%以上[1]。2008年顾妍午等人运用改进的粗网格特征提取法,对神经网络的输入简化,采用LM算法的BP神经网络来进行学习,验证了此算法在手写邮编识别中的有效性[2]。2009年蒋先刚等人用颜色掩膜和Hough变换对邮编定位,利用信息熵理论提出字符综合特征选取的融合方案,设计与之相关的可视数据库系统,提高识别率、程序设计效率和信封自动分拣率及可行性[3]。2009年崔海霞等人用Gabor小波函数滤波器提取特征,采用PCM特征向量选择降低识别维数,识别结果较高,并验证了SVM的多类分类方法[4]。2011年代小红运用一种色素的二值化方法对传感器获得的24位邮政编码图提取边框格线和邮件字符的二值图,避免其分割的困难,使用手写数字多种方法的复合提高了识别率[5]。在已有的邮编识别中,首先要对邮编图像进行分割,然后在识别前首先要提取单个字符,最后才能进行识别。因此,单个字符的提取是邮编数字自动识别的基础。
1.单个字符的提取
在获取图像后,按现有的图像处理理论一般都首先需要进行图像分割,在邮编自动识别中主要就是将手写的邮编数字与原有信封的背景区分开。如某邮件邮编图像的分割图如图1所示。图中黑色的像素点对应手写的数字,白色的像素点表示信封背景。
从图1可以发现,由于信封质地等因素的影响,在分割结果上数字字符在图像中含有明显的噪点,一些数字也出现明显断笔,这会直接影响单个数字字符提取的完整性,进而降低数字识别的质量。所以,单个字符的提取主要是针对这样的问题进行相关的操作,减少因此带来的误差。
2.形态学操作后单个字符的提取
在现有图像处理技术中,形态学处理一般被认为可更有效的表达描述图像。如通过简单的腐蚀操作能消除邮编分割图像中各个区域的边界点,使邮编数字缩小的同时消除小于结构元素的噪声点;简单的膨胀运算能将与邮编数字接触的所有背景点合并到邮编数字中,使邮编数字增大,可添补邮编数字中的空洞。
为去除邮编图像中分割的噪声并减少断笔现象,可以首先再去较小的结构元素进行腐蚀操作去噪声,然后选择较大的结构元素进行膨胀操作减少断笔现象,然后再进行一次开操作(即以同样的结构元素先腐蚀后膨胀)使得数字字符的轮廓变得光滑,同时断开笔画间较为狭窄的间断和消除细的突出部分。某幅图像的处理结果如图2所示。
3.实验结果与分析
采用上述方法进行实验,对45幅分割后的邮编图像进行形态学操作,然后提取单个字符块,以单个数字字符无断笔为标准,在32幅图像中成功的分割出单个字符块。
实验结果表明形态学运算能成功的消除图像中无意义的噪声点,同时起到了一定的平滑效果,图像质量有了很大的改变。在这样的提取方法中,由于形态学处理的效果好坏关系到字符块分割与数字字符识别结果的好坏,在形态学处理过程中参数的选取至关重要,尤其是在结构元素及面积大小的选择上。结构元素值过大不易保持目标的形状特征,值过小则不能把断笔处连接起来。另外,形态学操作依然会受到书写风格的影响,比如笔画的粗细、断笔距离等。
4.小结
針对邮编分割图像存在噪音干扰且断笔的现象,提出通过形态学操作减少这些误差对单个字符提取的影响,这位邮编自动识别效果的提高提供了理论基础。
参考文献:
[1] 尹朝庆,宋化,陈波. 手写邮政编码的模糊识别方法[J].武汉理工大学学报,2005,27(2):154-157.
[2] 顾妍午,李平,陶文华,田绍宽. 基于改进BP神经网络的手写邮政编码识别[J].辽宁石油化工大学学报,2008,28(1):52-55.
[3] 蒋先刚,赵莹,李林. 基于综合特征的字符模板库的建立与训练[J].华东交通大学学报,2009,26(6):74-78.
[4] 崔海霞,杨红,刘佐濂. MNIST邮政编码手写数字识别的研究[J].广州大学学报,2009,4(8):14-18.
[5] 代小红.模糊模式的手写数字识别技术研究与实现[J].重庆大学报,2011,34(6):117-122.
基金项目:
广西工学院2011 年科学基金项目(院科自1166102)
作者简介:
周晓华(1976-),硕士,广西科技大学电气与信息工程学院,副教授,主要从事图像处理与智能控制方向的研究