复杂版面文档图像表格与图的提取及分析

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:qqllql
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化时代的来临,纸质文档电子化已成为信息化建设的重要趋势。表格是一种信息量高度集中的文本形式,它可以将文本和图涵盖其中,具有规范、简明和易于处理等特点。图是对文字的生动化描述,可以将晦涩难懂的文字通过图的形式表达出来。在复杂版面文档图像中鲁棒并精确地进行表格与图的提取及分析,是纸质文档电子化的关键。本文对此进行了深入的研究,主要内容如下:1.从文档图像中表格与图的特点着手,对文档图像进行预处理。本文首先将黄氏模糊算法与OTSU算法结合,对文档图像进行二值化,通过实验结果证明该算法抗噪性能良好,且减少了表格线的断裂。此外针对倾斜的二值文档图像,本文采用基于Hough变换与形态学运算相结合的倾斜校正算法进行校正,并且用实验证明了该算法的有效性。2.表格的分析分为表格框线的提取、单元格的提取与表格重构三部分。第一部分,表格线的提取采用了基于形态学的算法,能准确地提取出表格框线,并定位出表格区域。第二部分,为了有效地提取单元格,本文首先对提取出的表格框线做了细化。通过对Hilditch、Rosenfeld、查索引表、并行细化算法结果作比较,最终采用了并行细化算法,并对其细化不彻底的缺点做了改进。然后,单元格的提取采用了基于表格特征点的算法,并采用Hough变换检测单元格内的斜线。第三部分,对单元格内的文字信息进行连通域扫描来定位,并将表格框线与斜线整合完成表格的重构。3.图的提取采用了基于轮廓跟踪的算法,该算法可以将去除表格的文档图像中的图提取出来。本文针对类似表格的图提出了一组规则进行区分,并对嵌套的复杂文档进行分类处理来完成其中表格与图的提取与分析。在由2038张图片组成的数据库中进行测试,表格与图提取及分析的准确率均在82%以上。
其他文献
期刊
8月11日,农五师八十七团投资100余万元从美国进口的一台番茄收获机安全抵达该团。该团农业科已迅速组织技术人员进行有序地安装调试.该机将正式投入到今年团场酱用番茄采摘工
目的总结产后急性期单侧下肢深静脉血栓形成(DVT)腔静脉滤器联合手术取栓治疗的疗效及应用。方法回顾性分析59例产后单侧下肢急性期DVT行腔静脉滤器联合手术取栓治疗的患者临
2013年12月至2015年5月、2014年4月至2015年5月利用红外相机分别对黑龙江凉水保护区和丰林保护区鸟兽多样性进行研究:凉水保护区累计10736个捕获日,获得有效照片总数14726张,
<正>1文献来源Dunleavy K,Pittaluga S,Maeda LS,et al.Dose-adjusted EPOCH-Rituximab therapy in primary mediastinal B-cell lymphoma[J].N Engl J Med,2013,368(15):140
兵团进一步推行农业产业结构调整,农八师一四九团为拓宽结构调整渠道,推广麦茬复播大豆栽培技术,从而提高复种指数,增加农工种粮收入,经济效益较高。
介绍了燃油热水锅炉的结构特征、水动力特点、设计要求及锅炉发展现状和市场动态。
近几年,随着伊犁酿酒业的迅速发展,市场对高粱的需求日益增多,农民的种植积极性也逐年增加。为了能进一步指导生产,使高粱获得较高产量,农四师科学研究所对高粱的6个主要性状进行
冬季猪舍检修要点:(1)猪舍应建在地势高燥、向阳之处.及时检修屋顶及四壁的缝隙.窗户和通风孔应距离地面1.0~1.5m以上.以保持舍温相对稳定;(2)悬挂草帘猪舍的门窗可搭草帘遮盖.或整个门窗