论文部分内容阅读
手写体汉字文本图的处理和脱机手写体汉字单字识别是图像处理和模式识别的一个分支。在汉字识别技术中,图像的行切分和字符切分、基于单个字符图像特征的选择和提取以及基于单个字符图像特征的模式分类是最核心的技术。论文在彩色文本图的二值化、噪音消除、消除文本图背景框线、文本图的行分离、文本行的字分离等文本图处理方面,以及归一化处理、基于统计特征的单字识别、笔划提取、基于笔划结构的单字识别等汉字识别方面进行了算法设计、分析,并进行了相关的实验,取得了良好效果。 在汉字文本图的处理方面,在第2章通过分析彩色图像的光照、色彩分布不均匀现象,依据分块二值化的原则,采用公式法+阈值调整实现彩色文本图的二值化。第3章关于噪音消除问题,针对中值滤波的不足,提出了多种方法,包括连通部面积法、连通部膨胀法、雪融法等。采用连通部面积法和雪融法消除小的斑点、空洞以及孤立线条,然后消除孤立的悬空点、凸点和凹点。另外通过分析了背景框线的几种存在方式,提出了直线检测的几种方法。对于已知方向性的直线的检测采用投影分析法。霍夫变换法则是一种通用的检测方法。另外讨论了穿针引线法和受激辐射法用来检测背景框线的方法。 在第4章,利用连续0象素段数量特征生成投影曲线,我们进行了投影曲线分析,发现了文本图处理过程当中的一个现象——单行的单波峰及行与行间的单波谷现象及其稳定性,基于这个现象,第5章给出了一种文本图的行分离方法。 在第6章当中,关于从单独行当中进行字的分离,首先介绍了基于连通部的字分离方法,然后根据对于单行文字生成的投影曲线的分析,提出了惯性法单字分离方法。 汉字单字识别部分研究了识别预处理、基于统计特征的单字识别、笔划提取以及基于笔划结构的识别方法。第7章首先给出了投影函数,然后根据投影函数完成了单字的归一化。第8章研究了几种可用于生成统计特征矢量的单字文本图特征,并且基于这些特征矢量进行了单字识别的实验。 在第9章,首先提出了沉淀法,这是一种适用于工整字的简单的笔划提取方法;然后探讨了一种基于中线分析的笔划提取方法。基于笔划已经提取完毕的先决条件,我们在第10章讨论了基于笔划精确匹配的单字识别方法;对于字的分离、表示、识别等进行了分析。