论文部分内容阅读
脱机手写数字识别由于其字形信息量小、字形相差不大、笔划顺序信息难于获取、数字变形大等特点成为模式识别领域一个具有挑战性的课题。脱机手写数字识别能在大规模数据的统计、金融领域、邮件的自动分拣以及手写文稿自动输入等诸多方面发挥巨大作用,它的研究对于脱机手写数字信息的录入和开发新的计算机智能输入系统有重要意义。当涉及到数字识别特别是与金融数字有关的数字识别时,人们往往要求识别系统具有很高的识别率和可靠性,因此要设计出高可靠性和高识别率的脱机手写数字识别方法,而脱机手写数字识别是一个非常复杂的问题,虽然在过去的几十年中人们提出了很多识别方法,但至今仍然没有一种方法能够达到理想的识别效果。本文研究对象为高校师生手写的60000多个手写体数字,其中10000个用作训练集,4000个用作测试集,字库的其它部分用于以后继续研究时使用。本文的贡献主要是提取新的组合特征和BP人工神经网络的改进,并用C++Builder编程实现了特征提取过程和BP人工神经网络部分。(1)特征提取:由于每个特征都有各自的优点和缺点,单独的一种特征很难达到预期的识别效果,所以本文采用多特征组合方案,这也是脱机手写数字识别的一个发展趋势。本文在综合考虑了各个特征的优缺点及特征选取的原则的基础上,提出了一种新的特征组合方案,首先从全局和局部两个方面对数字进行特征描述即将轮廓特征和方向线素特征进行组合,然后再根据这两者均无法解决的断笔情况进行补充,从而引入有效行特征形成一种新的组合特征,最后通过对比实验证明了该新的组合特征的有效性。该新的组合特征无需对样本进行细化、去噪等预处理操作,减少了前期的预处理工作量,同时也减少了因细化变形等预处理操作而引起的误识。(2)BP人工神经网络改进:本文在利用动量法改进BP人工神经网络算法的基础上,针对网络权值调整时不容易跳出误差平坦区的问题,对激励函数进行了改进,引入一个新的可调的陡度因子,通过在脱机手写数字识别中的实验表明改进后的BP人工神经网络有效的提高了网络的收敛速度。训练样本识别率为95.58%,测试样本识别率为84.6%。