论文部分内容阅读
脱机手写体汉字识别研究对汉字信息处理自动化,对开拓新一代计算机的智能输入有重要意义。本文对脱机手写体汉字识别系统中非限定问题进行研究。由于特征提取与分类都是对单个汉字来进行的,因此必须正确的切分才能保证识别的准确度。在无约束汉字的切分中,行切分较为容易,因为对行进行投影后的所得到的投影曲线的统计特性较好,即呈现比较有规律的波状图。而把单个字从一行中切出来还存在很多困难,一方面无约束手写汉字串没有方框的限制,字符间极易发生粘连,交迭的情况,另一方面,汉字由偏旁部首组成,这使得一个汉字很容易被分开成不相连的几部分。所以字分割依然是汉字识别的一个瓶颈问题。
连通域单元方法对交叠的情况有很好的效果,而且不受字体复杂性的影响,是一种健壮的粗分割方法。首先对连通域单元进行初次合并,把具有上下和包含关系的连通域单元合并成一个新的单元。但左右关系的部件所在联通域单元未能进行合并,此时,连通域单元集合里,有三类单元:部件、单字、粘连字。要准确地进行部件合并或粘连字切分,就要确定哪些连通域单元是单字,哪些是部件、粘连字。现在比较流行的方法是宽高比的方法。但这种方法的分界阈值自适应能力较差。
本文提出了多正态总体模型,用三个正态密度函数加权叠加来拟合连通域单元宽度的频数函数,采用最小二乘回归和迭代的方法求解该模型,再用贝叶斯判别法来确定分界点,自适应能力强,并且分类准确率性高。
另外,对粘连字的切分本文采提出用加权的k均值法。我们把每一个汉字的的前景像素点看作是一类,通过聚类的方法把粘连字分开。
本文还提出了基于多正态总体模型的合并策略。通过求解本文提出的优化模型,可以比较准确的得到三类连通域单元之间宽度的分界点,使我们的合并策略更加准确有效。整个切分方法既提高了算法的自适应能力,又提高了切分的正确率。实验表明这种方法具有很好的切分效果。