论文部分内容阅读
在文本识别中,字符分割是单字识别的前提和基础,字符分割效果的好坏将直接影响识别的正确率。目前的研究和应用表明,字符分割已成为将字符类型识别、字符识别核心算法、后处理等多项OCR核心技术进行有效整合的中心。因此,研究如何有效地进行字符分割对于提高系统的整体性能具有极其重要的意义。本文以非限定手写体字符为研究对象,主要对字符分割过程中的一些相关技术和算法进行细致的研究及改进,并给出了阶段性的算法描述和实验结论。针对手写汉字字符串中字符之间极易发生粘连、交错、过分等现象,采用单一的切分方法无法同时对上述情况给予完善处理的问题,提出了一种多步的切分方法。该方法分三个阶段对字符串进行分割:(1)非粘连字符的切分;(2)粘连字符的切分;(3)过分割字符的合并。该方法通过将多种切分算法进行有效地结合,对每个算法用其所长,每个阶段都是针对特定问题来解决的,从整体上提高了执行效率。过分割汉字的合并实际上是从所有候选路径中选出一组正确的分割路径。为了尽可能地减少分支路径的产生,提高搜索效率,在寻找最优分割路径的过程中,应用A~*启发式搜索算法动态地确定候选路径的最小分割代价,据此对每一个搜索位置进行评估,从而有效地搜索出最优分割结果。该方法对分割路径的评价标准更直接,求解过程更快捷、准确。滴水算法在对粘连数字的分割中表现出较好的执行效果,但该方法主要存在以下两个问题:(1)在确定水滴滚落起始位置时容易受局部信息的干扰,给算法的执行带来一定的困难;(2)垂直渗漏过程使倾斜字符笔划受损严重,造成错误分割。针对上述不足,引入蓄水池的概念,提出了基于背景区域分析的方法,限定了滴水算法切分起始点的搜索范围,建立了字符粘连类型的判别规则,实施了面向粘连类型的分割策略,扩展并改进了传统垂直渗漏过程,使滴水算法的实用性和准确性得到了提高。手写草体字因其笔划连带、省减,字体模糊、不确定等因素给切分和识别带来极大的困难。针对手写草体英文字符串的分割,以普遍流行的过分割方式为主体框架提出了一种基于识别后处理的分割方法。该方法先对原字符图像进行不规则分割区域划分,尽可能地使每个区域内都隐含一条分割路径,然后利用动态规划算法来求取分割路径。在代价函数的定义上,提出了灰度信息与二值信息相结合的方法,以兼顾二值图像中相关信息的丢失和灰度图像中不相关信息的干扰。在对分割路径进行处理时,设计了过分割验证器来决定预分割后的子图像是否需要进一步的合并,并利用识别器和统计语言模型相结合的方法来确定合并方案,以获得符合上下文关系的更准确的分割结果。