论文部分内容阅读
脱机手写体汉字识别技术是模式识别领域的一个重要研究课题。由于脱机手写体汉字具有数量大、结构复杂、字体繁多和书写随意性等特点,使得脱机手写体汉字识别一直是汉字识别领域最困难问题之一。本文以脱机手写体汉字为对象,研究了一种基于多级多特征剪枝二叉树的脱机手写体汉字分类识别方法,为手写体汉字识别提供了一种新的思路。论文的主要研究工作如下:(1)在研究汉字统计特征与结构特征的基础上,定义了脱机手写体汉字像素密度特征,该特征兼顾手写体汉字的整体和局部信息,分为整体广义密度特征、分解结构(横、竖、斜)密度特征,给出了特征获取方法。(2)提出了基于多级特征剪枝二叉树的脱机手写体汉字粗分类方法。在研究了脱机手写体汉字的广义密度特征的基础上,构建了基于广义密度特征分类规则的剪枝二叉树模型,并给出了基于多级特征剪枝二叉树的脱机手写体汉字粗分类方法。(3)“一对多”SVM的脱机手写体汉字细分类识别算法的研究。提取了几种具有一定相关性的统计特征,并运用数据融合理论将其融合,作为“一对多”SVM细分类的输入,利用“一对多”算法对同类型汉字进行细分类识别。本文选用SCUT-IRAC HCCLIB手写体汉字样本库作为实验样本库,以MATLAB7.0为仿真工具对本文提出的多级特征SVM剪枝二叉树的粗分类和多特征融合的“一对多”细分类识别的方法进行了仿真实验验证,仿真结果表明此方法是可行的。