论文部分内容阅读
随着iPhone,iPad,andriod智能手机等针对个人的手持设备的流行,无约束文本行输入方式将得到越来越广阔的应用。然而,联机无约束手写汉字文本行识别是目前手写字符识别领域,甚至模式识别领域的一大难题。与单字或词组手写字符识别相比,它具有一下几个特点:(1)汉字字符类别繁多,结构复杂;中文的句子更是复杂多样,大大提高了文本行识别的难度(2)文本行识别的对象为一行中文句子的笔画序列,其中可能包含几个到几十个字符,因此无法对其进行整体识别,需要直接或者间接对其进行切分。(3)待识别的字符是在无约束的情况下书写的,所以无论是单字的形状还是文本行的位置关系都难于确定。(4)目前可用的联机无约束数据汉字文本行数据库较少,这就给文本行识别带来更多的困难。针对这些难题,本文做了大量的数据库建设工作和文本行识别研究工作,主要包括:针对联机无约束手写汉字文本行数据库匮乏的情况,为了更好地支持联机手写汉字文本行识别,本文规划设计采集了联机无约束汉字文本行数据库——SCUT-COUCH Textline_NU。当前版本的SCUT-COUCH Textline_NU包含8,809文本行(其中4,183通过触屏LCD采集,3,996行通过数字笔采集)共159,866个字符。超过157个书写者采集。所有文本行采用随机分析的方法选自《人民日报》语料。该数据库的建立为联机无约束手写文本行识别研究提供数据基础。针对手写文本行的识别研究,本文提出一种基于过切分和语意分析的联机无约束手写汉字文本行识别方法。在切分上本提出了一种结合拐点检测、连笔拆分和笔画整合的过切分方法,将文本行过切分成一系列字符部件。同时,本文对过切分的字符部件采用基于动态规划的最优候选组合路径提取方法得到候选切分组合路径。在文本行识别上,本文提出一种基于语意分析的方法,以贝叶斯公式为基础推导出一种结合单字识别信息,上下文语意信息的概率分析模型。利用该模型对候选识别输出进行评价得出最优识别结果。实验表明,本文的过切分方法在中科院联机文本行数据库:CASIA-OLHWDB2.0得较高的过切分准确率(96.31%),较好的过切分有效率(55.1%)。在识别实验中,本文在SCUT-COUCH Textline_NU数据库和中科院联机文本行数据库下进行实验,分别获得56.41%和61.32%的文本行识别率。识别结果表明本文文本行识别方法取得较好结果。总之,联机无约束汉字文本行识别是一个综合性的研究课题,涉及到模式识别和自然语言理解等学科的知识。该课题不但对于未来手写字符识别有重要的研究理论意义,同时对未来掌上设备的书写输入方式有着重要的实用价值。