复杂版面文档图像中公式与文本的提取及分析

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:z85811936
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的来临,人们处理信息更加智能化和高效化。传统的文档信息主要记录在纸质文档上,OCR技术实现了纸质文档信息的数字化,版面分析是OCR实现的前提。由于中文版面研究历史较短,在字符形态和排版方式上与英文版面不同,因此中文版面分析的研究有其自身重要的价值。中文版面包括图、表格、公式和文本四个组成元素,其中公式和文本是主要的部分。由于公式和文本的结构与成分相似,因此版面分析中公式和文本的提取具有一定的困难。本文对复杂中文版面文档图像的公式和文本提取进行深入研究,具体工作内容如下:(1)文档图像预处理。首先采用投影轮廓分析法实现边界噪声的去除。然后采用连通区域标记和中值滤波相结合的方法去除椒盐噪声。与传统的中值滤波去除椒盐噪声相比,实验证明了本文方法的有效性。最后采用Hough变换实现文档图像倾斜校正。(2)公式和文本的预处理。文档图像公式和文本提取时,其版面结构(横纵排、栏数)和内容(标题、页码)会严重影响提取结果。针对这一问题,本文在公式和文本提取前,首先采用连通域提取法和最近邻合并法相结合的算法实现横纵排判断,然后采用投影法和形态学算法相结合的方法实现标题和页码的提取,最后采用投影法和连通域提取法相结合的方法实现文档栏数判断。以上部分是公式和文本的预处理,这是实现公式和文本提取的保障。(3)文档图像公式提取。本文采用投影法、游程平滑算法、连通域轮廓提取算法和改进的规则定义法相结合的方法,实现复杂中文版面独立行公式提取。与传统的机器学习方法实现公式提取相比较,本文采用的方法,对于低分辨率文档图像,实现了独立行公式的提取,其提取准确率达到80%以上。(4)文档图像文本行提取及合并。本文采用连通域分析和游程平滑算法相结合的方法,实现了文档图像文本行提取,其提取准确率达到81%以上。然后将Sobel算子和形态学算法相结合,实现了文本行的合并。
其他文献
ZigBee技术以其无需布线,传输速率低,价格低廉等特点在无线传感器网络方面具有一定的优势,但如何实现与其它网络的互联互通还是一个研究课题。本设计目的是设计基于ZigBee和
随着计算机技术和微电子技术的迅猛发展及信息化建设的不断推进和深化,应用大规模和超大规模集成电路的新型设备越来越多。电子设备的构成发生了根本性的变化,这种变化又导致
随着网络技术普及,很多重要信息都是以文档的方式存储并在网上传输,如果不对文档采取保护措施,文档的内容很容易被非法编辑和修改,可见研究文档的版权保护问题已迫在眉睫。本
无线Ad hoc网络是一种特殊的无线网络,它不需要基础设施的支持,节点兼有主机和路由器的功能。节点自由移动造成网络拓扑动态变化,使得传统的路由协议在该环境下无法正常运行,
风电场由风力发电机组等设备组成,是一种典型的多域异构信息环境。不同厂商的风电机组具有各自的数据定义和通信模式,由此引起的数据和通信不兼容的问题阻碍了风电机组的有效监控,影响到电力生产,同时限制了风电设备的适用性,提高了运行和维护成本。本文针对多域异构环境下的信息兼容性问题展开研究。借鉴变电站自动化领域的成熟经验,利用面向对象的思想,应用IEC61400-25(风电场监控通信)规约的基本方法,提出了
随着城市现代化进程的不断推进,汽车尤其是私家汽车的数量迅速增长。汽车在给人们带来巨大便利的同时也带来了诸多问题。在此情况下,车牌识别系统应运而生并且发挥着越来越重
M元扩频通信系统具有占用带宽小、抗干扰能力强及隐蔽性能强等突出优点,在超宽带、水声及卫星等通信系统中得到了广泛应用。本文针对采用M元扩频的多用户通信系统,研究了信道
随着互联网的不断发展,在为我们的生活带来巨大便利的同时,现代网络所存在的各类脆弱性问题也使得我们不得不面对来自各方面的威胁和攻击,随之而来的安全风险也越来越大。网
盲信号分离是指在信号源和传输信道完全或部分未知的情况下,只利用传感器阵或天线阵的观测来分离、提取源信号的信号处理理论。近年来,它已成为信号处理领域的一个研究热点。盲
协作分集技术通过用户共享彼此的天线形成一个虚拟的多天线网络,从而获得发射分集以对抗无线信道中的多径衰落,可以有效地改善移动终端上行链路的性能。论文主要研究无线通信