印刷体表格识别的研究

被引量 : 0次 | 上传用户:yhbx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在日常的商业活动中,我们每天都运用了大量的文档和表格。同时表格文档也广泛地应用于各个领域,通常人们需要手动处理表格文档,例如客户需要缴纳赋税,图书管理员需要采集纸质表格文档中所包含的数据信息。由于光学字符识别(OCR)技术的发展,人们开始尝试利用可获得数据的标准表格图像来提取表格中的数据信息,这可以减少工作时间并减轻其的工作负担。在商业领域中,利用OCR技术可以提高工作质量,并且可以减少人们花费在处理表格文档上的大量时间。在OCR运用的许多领域中,我们通过获取的表格模板使用户知道图像中印刷体的目标字符串。这些字符串信息包括了许多项目内容如文本信息和数学公式等。然而,表格的存在阻碍了数据信息的提取。因此,表格线检测/去除是印刷体表格识别技术中的一项重要任务。由上可知,我们需要一个实际的表格识别系统来处理这些问题。本文在印刷体文档识别技术的基础上,对表格文档的识别技术进行了深入的研究,并完成了部分表格识别系统的开发工作。传统的表格识别系统可以分为二部分:表格框架识别和图像信息提取与表格重绘。在表格框架识别部分中,首先表格线的检测、去除以及图像识别处理技术都是基于二值图像完成的。因此,本文运用了一种有效的二值化算法将256色灰度图像转化为理想的二值图像,并采用改进的Hough变换法来完成一定范围内的图像倾斜校正;其次,利用文档图像的版面分析提取图像中的表格区域,并将非表格区域删除以便于提取图像中表格区域的数据信息。最后,本文采用了传统的投影法与基于直线的搜索相结合的算法完成表格线的检测与提取。在完成图像中的表格线的提取之后,针对表格线存在的断裂和非对齐等问题分别做出相应的处理,并且将图像中的横向与纵向表格线重组成表格框架。在图像信息提取部分中,由于表格的种类繁多及其复杂性,表格单元提取成为表格自动识别系统中一个重要的影响因素。本文采用了交点特征和交点轨迹法提取表格单元,并形成闭环区域。然后利用数学形态学的方法除去表格线,使我们可以获取表格图像中的数据信息,利用OCR技术完成数据的识别,并将其写入已经提取的表格框架中,完成表格图像的重绘。综上所述,本文实现了一个印刷体表格图像识别实验系统,本实验系统包含了图像二值化,倾斜校正,版面分析,表格识别等算法。通过实验结果可知,本文所述的方法可以在表格图像分析中达到很好的识别效果。
其他文献
以广东省五华县典型崩岗洪积扇为研究对象,通过GPS RTK获取从扇顶到扇缘64个采样点的坐标、高程信息,并采集土壤样品进行理化性质的测定及分析,通过分形理论、回归分析和地统
目的:利用网络药理学对西南地区苗药黑骨藤防治肺癌的分子机制进行研究。方法:采用磺酰罗丹明B(SRB)比色法考察苗药黑骨藤抗肺癌活性部位,运用网络药理学的方法,通过文献检索
本文从四个方面构建董事会的独立性评价体系,并以此为工具对中国15家上市商业银行进行了实证评价。从评价结果来看,我国上市商业银行的董事会独立性总体较差,须从三个方面改
凝血酶和凝血因子Xa (FXa)是凝血系统中重要的两个凝血因子,本研究分别探讨凝血酶和凝血因子Xa对Meg-01细胞分化为血小板的作用机制。凝血酶是一种有丝分裂原,可以诱导多种细
针对土地面积的精准测量的需求,研制了一种基于GPS卫星定位的面积测量装置。该装置由数据处理模块、GPS北斗模块、电源模块、人机交互模块等组成;软件基于μC/OS-Ⅱ,将系统划
目的:建立复方决明子滴眼液中阿魏酸的含量测定方法。方法:采用高效液相色谱梯度洗脱法,选用KromasilC18(5μm,4.6×250mm)色谱柱,流动相为乙腈(A)-0.1%冰醋酸(B)(20:80),采用梯度
本文通过对《陌上桑》诗意的重新解读,认为诗歌主旨是"嘲笑和鞭挞了上层人物的荒淫与无耻"的传统观点是错误的;使君并非荒淫无耻,秦罗敷的夸夫之辞其实是民间谜语;通过对第三
伴随着社会的发展,电气自动化控制在多个行业当中的应用均有所普及,并且应用的作用越发重要,尤其是在工业行业以及建筑行业当中,其不仅可以显著提升工厂施工效率及适用质量,
证券投资基金是证券市场发展的必然产物,在发达国家已有上百年的历史,在中国也发展了二十多年。回顾证券投资基金在我国二十多年的发展历史,它大致经历了三个阶段:早期探索阶
目的建立降压袋泡茶中大黄酚的含量测定方法.方法采用高效液相色谱法,色谱柱为Lichrospher ODS柱(4.6×250mm,5μm)分析柱,流动相为甲醇-水(88:12),检测波长为254nm,流速