论文部分内容阅读
随着计算机技术的推广应用,人类越来越多的依赖计算机获得各种信息,大量的信息处理工作也都转移到计算机上进行,存在着大量的文字信息处理问题,因而将文字信息快速输入计算机的要求就变得非常迫切。本文将研究重点放在了OCR预处理方面,对其中的一些算法提出了自己的改进意见,并且用C/C++实现算法,进行实验,分析结论。本文的主要工作总结如下:
1.图像二值化方面。提出了一种新的基于数学形态学的二值化算法,用数学形态学的方法将图像背景提取出来,得到零背景的图像,对零背景图像再进行二值化,解决了在图像获取过程中背景不均匀问题。
2.图像倾斜校正方面。选取竖直扫描黑游程的中点为直线拟合的特征点,用最小二乘法进行直线拟合得出倾斜角度,将图像以左下点为旋转中心进行旋转,并按照旋转后新图像的宽、高扩大区域,完成倾斜校正。
3.版面分析方面。提出了一种非文本块优先的方法。该方法,扫描文档图像做连通域搜索,抽取所有的连通域,根据连通域的尺寸特征,优先提取不具备文字结构特征的区域;用数学形态学的方法提取图像、图形区域;用基于投影的方法提取表格区域;最后对余下的文本区域采用改进的基于投影的纵横切割的方法进行版面分析。结果表明该方法能大大提高版面分析的速度,精度也有所提高。
4.文种识别方面。实现基于小波分析的文种识别与基于穿越次数的文种识别,并根据实际情况文本字符的特点,利用版面分析过程中得到的连通域的结果对穿越次数的计算方法进行了改进。结果表明能有效减少文种识别的运行时间。