论文部分内容阅读
汉字识别一直是模式识别最重要的研究领域之一,具有广泛的应用前景。经过多年的研究,已经取得了大量成果[1-3]。但是,无约束的非特定脱机手写体汉字识别仍然被认为是文字识别领域最困难的问题之一[4],其原因可以归结为:相似汉字较多,且有些相似字差别极其细微;存在大量的不规则书写变形。支持向量机(Support Vector Machines-SVM)已经在模式识别、回归分析和特征选择等方面得到了较好的效果[5][6]。本文以脱机手写体汉字识别为研究对象,首先根据一种判定汉字复杂程度的标准[4],对汉字进行初步粗分类,然后分别基于汉字的字型结构和外围边框类型对汉字进一步粗分类,最后将汉字分为9种类型,生成了一个二叉分类树。根据二叉树叶子节点中的汉字集类型,选择不同的混合特征作为各组SVM分类器的输入,采用“一对一”方法进行最终的细分类识别。具体做了以下几方面的研究工作:(1)汉字粗分类二叉树的构造。依据手写体汉字笔划数和复杂度之间的关系,进行初步粗分类;研究了手写体汉字的字型结构以及外围边框特点,进一步对汉字集进行粗分类,从而构造出一个手写体汉字粗分类二叉树,实现了基于汉字复杂度、字型结构和边框类型的多级粗分类。(2) SVM核函数参数寻优方法的改进。依据核校准理论,对一种核参数的优化选择方法进行了改进,利用改进后的方法在训练前对训练样本进行聚类,以获得核参数。(3)脱机手写体汉字的特征提取及融合方法的研究。依据二叉树粗分类中不同汉字集的不同特点,利用不同的特征作为各个SVM分类器的输入;同样依据细分类中不同汉字集的不同特点,选取不同特征并对其融合形成新的特征,作为各个“一对一”SVM分类器的输入,进行细分类识别。(4)选取SCUT-IRAC库中的手写体汉字作为仿真样本,以MATLAB7.0为仿真工具进行了仿真分析。仿真结果表明:本文提出的这种新的二叉树SVM粗分类方法与“一对一”SVM细分类相结合的分类识别策略,充分发挥了二叉树分类速度快和SVM分类正确率高的优点,取得了较好的效果。