论文部分内容阅读
随着计算机技术特别是互联网技术日新月异的发展,人类步入了信息时代。在中国,个人计算机已进入千家万户。在计算机上使用汉字,首先遇到的问题是如何有效地输入汉字,汉字输入直接影响着计算机中文信息处理的应用与发展。目前,键盘输入仍是计算机汉字输入的主要方法。汉字不能像英文那样直接键入计算机,而需要采用特殊的输入技术。汉字键盘输入方法很多,主要可归结为两类:拼音输入法、形码输入法。在计算机上输入汉字,大都有这样的烦恼:使用拼音法输入,常常不是拼不出,就是读不准;想用形码法输入却往往不会拆字。针对这种情况,“手写式”输入方法变得越来越受大众欢迎。该方法完全符合人们的日常书写习惯,与平常书写汉字时一样,差别仅仅是使用者需要将输入的汉字写在“书写板”上,计算机通过捕获书写笔迹的轨迹点进行汉字识别,进而完成汉字输入。本文重点论述了一种基于汉字笔画的联机手写汉字识别系统的研究与实现,在设计上通过实时捕获书写笔画的轨迹,识别出汉字的笔画,再根据笔画序列查找对应的汉字;在实现上不必需专用的“书写板”,仅用鼠标或者笔记本的触摸屏作为手写汉字输入的工具。联机手写汉字识别方法分为2大类:基于整字识别的方法和基于笔画识别的方法。本文采用的是后者,即先识别用户输入的笔画再根据所识别的笔画集合查找汉字的2级识别方法。这种基于笔画的联机识别的特点是写一笔、识别一笔。在识别过程中,笔画识别是汉字能否正确识别的前提和关键。论文所采用的笔画识别方法是以笔画方向码的概念为基础。笔画可以细分成笔画段,本文将这些笔画段分别用8个笔画方向码来表示。在书写笔画的过程中,笔画轨迹是由一系列坐标点组成。这些坐标点是离散的,并且相邻两点的连线是计算机所能分辨的一段最小直线。本文用8个笔画方向码标记每1段最小直线所属的方向。每1个笔画的书写轨迹都可以产生出1个方向码序列即当前笔画的笔段序列。算法通过对方向码序列滤波、归并之后得到笔画的最简方向码序列,依照笔画特征字典用动态规划法获得所有可能的笔画集合,从而完成笔画的识别,其中也包括了部分连笔部件的识别。由于手写的随机性,手写的笔画因人而异、因时而异、因书写条件、设备和环境而异。所以在识别过程中,对于相同的笔画,不同的书写者,系统获得的方向码序列是不一样的。这就要求系统具有良好的自学习功能,对于新的正确模式,能够进行学习记忆。本文主要讨论了文法学习方法来增强识别系统的自学习能力。论文设计了基于汉字笔画的联机手写汉字识别系统的工作流程,串行和并行方式。汉字识别中主要讨论了5个问题:(1)单一笔画的识别方法;(2)连笔笔画识别方法;(3)分析识别字典的种类以及相关问题;(4)笔画串的匹配问题;(5)讨论省略符在笔画输入中的作用以及相关问题。本文最后讨论一种基于笔画的手机输入法的设计思想和测试整句输入正确率的方法。论文研究的手写汉字识别系统开销小,能有效节省软硬件资源,适用于嵌入式系统和单片机,有很大的应用前景。