论文部分内容阅读
作为汉字自动输入技术之一的汉字识别技术是汉字信息处理的重要接口技术。它能在信函分拣、银行支票识别、统计报表处理以及手写文稿的自动输入等诸多方面发挥巨大的作用。然而,由于手写体汉字的书写随意性很大,在整个字符识别领域中,手写体汉字识别的难度较大,成为该领域最具有挑战性的课题。本文主要研究内容为:汉字图像预处理,汉字特征向量的提取,重点研究了极限学习机ELM (Extreme Learning Machine)的改进算法最优投票极限学习机OV-ELM (Optimal Voting ELM)在汉字识别中的应用。本文首先对汉字图像的预处理技术进行了分析,包括对样本图像的归一化、平滑去噪、字符切分、二值化、汉字细化处理等。在分析现有特征提取方法的基础上,针对小字符集汉字识别的特点,本文利用弹性网格方向像素概率分布的特征提取方法,提取用于极限学习机分类器输入的特征向量;在分类器设计中,本文设计了基于最优投票机制的极限学习机优化算法OV-ELM,利用OAO(One-against-one)或者OAA(One-against-all)的思想,将一个多分问题降解为多个二分问题来提高分类的准确率,并且OV-ELM优化了传统的投票机制,对投票值以概率的方式给出,从而避免了得票数相同情况的发生。从本文设计的一系列实验的结果可以看出,本文提出的基于弹性网格汉字特征提取方法在特征向量提取方面效果良好,采用OV-ELM算法虽然相比ELM算法牺牲了一定的训练时间,但仍旧远远优于传统BP神经网络,并且在分类的准确率等方面的性能超过了ELM、支持向量机。整体分类框架在脱机手写体汉字识别方面取得了令人满意的分类性能。