文档图像识别预处理研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:sue001002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的推广应用,人类越来越多的依赖计算机获得各种信息,大量的信息处理工作也都转移到计算机上进行,存在着大量的文字信息处理问题,因而将文字信息快速输入计算机的要求就变得非常迫切。本文将研究重点放在了OCR预处理方面,对其中的一些算法提出了自己的改进意见,并且用C/C++实现算法,进行实验,分析结论。本文的主要工作总结如下:   1.图像二值化方面。提出了一种新的基于数学形态学的二值化算法,用数学形态学的方法将图像背景提取出来,得到零背景的图像,对零背景图像再进行二值化,解决了在图像获取过程中背景不均匀问题。   2.图像倾斜校正方面。选取竖直扫描黑游程的中点为直线拟合的特征点,用最小二乘法进行直线拟合得出倾斜角度,将图像以左下点为旋转中心进行旋转,并按照旋转后新图像的宽、高扩大区域,完成倾斜校正。   3.版面分析方面。提出了一种非文本块优先的方法。该方法,扫描文档图像做连通域搜索,抽取所有的连通域,根据连通域的尺寸特征,优先提取不具备文字结构特征的区域;用数学形态学的方法提取图像、图形区域;用基于投影的方法提取表格区域;最后对余下的文本区域采用改进的基于投影的纵横切割的方法进行版面分析。结果表明该方法能大大提高版面分析的速度,精度也有所提高。   4.文种识别方面。实现基于小波分析的文种识别与基于穿越次数的文种识别,并根据实际情况文本字符的特点,利用版面分析过程中得到的连通域的结果对穿越次数的计算方法进行了改进。结果表明能有效减少文种识别的运行时间。
其他文献
在中国,有大约10%的人口存在慢性HBV感染。HBV属嗜肝DNA病毒,研究显示,其增强子中有与营养信号调节相关的信号元件,参与调控的信号同样调控着肝脏中糖和脂的代谢,根据这些信号元件,
学位
在航空航天和军事仿真等领域的许多系统开发研制过程中,试验飞行器外测数据的获取是必不可少的过程。光电经纬仪作为一种摄影测量设备的分支,广泛应用于动能飞行器外弹道测量
随着软件技术的发展和软件项目规模的不断扩大,软件测试的作用越来越重要。测试用例(Test case)是为特定目标开发的测试输入、执行条件和预期结果的集合,它的自动生成技术是软
比起五年一届的“全国美术作品展览”(以下简称全国美展),应该说从第九届中国艺术节才开始启动的“全国优秀美术作品展览”并不具备前者那么高的知名度。但此次“十艺节全国
HIV/HCV共感染现象已经成为了世界性的重要公共卫生问题。随着高效抗逆转录病毒疗法(HAART)的广泛应用,因AIDS或AIDS相关性疾病的发病率和死亡率大大下降。与此同时,HCV感染所
苏南地区河网密布,人口众多,是我国经济发达和城镇化程度最高的地区之一,但是由于生活污水、工业废水及农田径流水的无序排放,导致河网区水体环境质量日趋下降。针对苏南地区水体
学位
为研究碱环境下黄秋葵种子萌发及生理特性,采用不同浓度(0、10、20、30、40 mmol·L-1)Na2CO3溶液处理黄秋葵种子,测定其种子的萌发特性、胚根生长速度及第3天时胚根的生理特
认识植物磷代谢的基因调控网络,发掘磷高效基因,从作物自身基因上进行遗传改良,是提高农作物磷利用效率、实现农业可持续发展的根本途径。本文针对前期筛选的5个磷调控转录因子