论文部分内容阅读
联机手写作为一种友好的人机交互方式,以其“不用学,不用记”的特点一直受到人们的青睐,特别是近年来,消费类电子终端产品的普及,更是对联机手写汉字输入提出了更高的要求。联机手写汉字识别作为解决手写汉字的联机输入问题的重要方法更是一直作为人们关注和研究的热点。联机手写汉字识别是一个超多类的复杂模式识别问题,以其类别多,手写变形大,字形结构复杂而成为联机手写系统必须攻克的难题。多年来,许多新方法新技术不停应用于联机手写汉字识别系统,取得了相当的成功,但有关联机手写汉字识别的关键算法和体系架构尚没有完整的报道。联机手写汉字识别技术的研究有着广泛的市场前景和深刻的理论意义。围绕着联机手写汉字识别的难题,开展了如下几个方面的工作:基于内角和多边形逼近提取笔段;基于有限状态机对笔段进行合并;基于字根的联机手写汉字识别算法研究;利用支持向量机识别字根和相似字。针对汉字的结构特征提取不稳定以及笔段可能会被过度合并或者合并不足而影响识别结果,提出基于内角和多边形逼近的汉字笔段提取算法。算法首先找到笔画的第一个拐点(最小内角值小于指定阈值),该拐点将笔画分割成两个部分。然后分别寻找拐点两侧曲线段上的拐点,反复执行,直到再也找不到拐点为止。依次连接一个笔画中所有曲线的起点和终点,就形成了该笔画的笔段系列。对提取到的笔段集合运用有限状态机描述并判定笔段的状态,并以此判定笔段的合并要求,以最大限度地减少冗余笔段。实验证明,这种算法具有较低的计算复杂度和很好的逼近效果,能适应手写汉字的笔段提取合并要求。对于基于字根识别手写汉字的算法进行了研究。汉字的类型分为包围、半包围、左右、上下和独体五种类型。在判断汉字的结构类型后,对汉字进行分解,得到汉字的字根属性字符串,然后对字根属性字符串进行匹配得到汉字的识别结果。系统稳定高效,取得了非常好的识别效果。采用排除法判断汉字的结构类型。首先判断汉字是否为包围类型,即如果能检测到外围“口”字形,则判定该汉字为包围类型,需根据具体汉字的笔段个数决定对汉字进行拆分或者匹配;否则如果检测到汉字中的长笔段符合半包围的结构特征,则判定为半包围类型,并确定字根的类型,再根据笔段个数确定对汉字进行拆分或者匹配。针对既不是包围也不是半包围结构的汉字,使用聚类算法进行分类判断结构类型,为保证分类的准确性,对分类的结果进行了校验后再确定汉字的结构类型。如果不是独体字,则继续进行拆分直到不能拆分为止。这样,提取的每一个部分都是一个字根。将所有的字根结合起来构成汉字的待识字根属性串,对其进行匹配得到汉字的识别结果。为保证字根识别的正确性,利用局部排序算法对字根里的笔段进行了局部排序。支持向量机是一种统计学习方法,具有全局最优性和学习泛化能力强的特点。近年来广泛应用于模式识别。对支持向量机应用于联机手写汉字识别做了研究和探讨。首先,对经过抽取得到的笔段块提取统计特征,然后进行学习识别以得到字根,实验证明,利用支持向量机能一定程度地有效识别汉字字根,支持向量机的优点得到了体现。针对汉字的字型结构复杂,相似汉字很多的特点,利用支持向量机结合部分空间特征对相似字进行识别处理。首先分析归纳相似汉字的不同特征,然后利用支持向量机进行学习和识别,最后得到相似字区分的结果。实验证明,在前期阶段已经识别的基础上,支持向量机能提高系统的识别率。论文在联机手写体汉字识别方面做了一些有益的探索,也形成了稳定可靠的汉字识别系统。下一步应努力提高汉字的识别速度,使之能够很好地应用于嵌入式系统。