脱机手写体汉字识别系统中非限定性切分问题的研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:yjichao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
脱机手写体汉字识别研究对汉字信息处理自动化,对开拓新一代计算机的智能输入有重要意义。本文对脱机手写体汉字识别系统中非限定问题进行研究。由于特征提取与分类都是对单个汉字来进行的,因此必须正确的切分才能保证识别的准确度。在无约束汉字的切分中,行切分较为容易,因为对行进行投影后的所得到的投影曲线的统计特性较好,即呈现比较有规律的波状图。而把单个字从一行中切出来还存在很多困难,一方面无约束手写汉字串没有方框的限制,字符间极易发生粘连,交迭的情况,另一方面,汉字由偏旁部首组成,这使得一个汉字很容易被分开成不相连的几部分。所以字分割依然是汉字识别的一个瓶颈问题。 连通域单元方法对交叠的情况有很好的效果,而且不受字体复杂性的影响,是一种健壮的粗分割方法。首先对连通域单元进行初次合并,把具有上下和包含关系的连通域单元合并成一个新的单元。但左右关系的部件所在联通域单元未能进行合并,此时,连通域单元集合里,有三类单元:部件、单字、粘连字。要准确地进行部件合并或粘连字切分,就要确定哪些连通域单元是单字,哪些是部件、粘连字。现在比较流行的方法是宽高比的方法。但这种方法的分界阈值自适应能力较差。 本文提出了多正态总体模型,用三个正态密度函数加权叠加来拟合连通域单元宽度的频数函数,采用最小二乘回归和迭代的方法求解该模型,再用贝叶斯判别法来确定分界点,自适应能力强,并且分类准确率性高。 另外,对粘连字的切分本文采提出用加权的k均值法。我们把每一个汉字的的前景像素点看作是一类,通过聚类的方法把粘连字分开。 本文还提出了基于多正态总体模型的合并策略。通过求解本文提出的优化模型,可以比较准确的得到三类连通域单元之间宽度的分界点,使我们的合并策略更加准确有效。整个切分方法既提高了算法的自适应能力,又提高了切分的正确率。实验表明这种方法具有很好的切分效果。
其他文献
本文首先对分数阶微积分的相关背景及研究现状作了简单的介绍,介绍了分数阶微积分的三种主要定义方法以及特殊函数的定义及性质;其次介绍了整数阶意义下的Andeson传染病动力学
捕食关系是近年来数学与生态学界研究的一个主要课题.诱饵一捕食者相互作用关系的研究具有重要的理论意义和应用价值.其中生物种群持续生存是捕食理论的一个重要而广泛的问题,它
论文对2007年将成为“中国衍生品市场元年”,年内股指期货、备兑权证等决定中国市场走向的金融衍生品即将登台,而这些复杂衍生品的定价与避险方法一直是国内券商苦苦追寻的难题
生物神经系统的研究大多数多集中在无脊椎动物的神经系统,由于脊椎神经系统神经元数量众多,研究起来相对困难,因此选取简单的脊椎动物神经系统七鳃鳗做为研究对象具有重要的意义
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊