非结构化文档的版面分析及表格提取

来源 :北京交通大学 | 被引量 : 2次 | 上传用户：loughtjiang

【摘要】

：

【作者】

：

张昊玥

【出处】

：

北京交通大学

【发表日期】

：

2019年01期

【关键词】

：

非结构化文档版面分析表格提取表格复现

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

现实生活中有大量的文档数据是以图像的形式存在的,如何将这些非结构化的图像数据进行结构化转换是对非结构化文档进行自动分析的初始步骤和关键技术。以此为目的,本论文采用基于改进的区域卷积神经网络(region-based convolutional neural network,R-CNN),即 Faster R-CNN 结构的深度学习网络模型并使用基于图像处理中投影计算的算法,对非结构化的文档图像进行了版面内容的自动分类与定位,并且对非结构化文档图像中的表格进行了识别、提取与转换,实现了对非结构化文档图像完成结构化转换的目的。本论文的主要内容包括非结构化文档图像的版面分析和文档图像中表格识别两部分。具体工作内容如下:在非结构化文档图像的版面分析部分,先对非结构化的文档进行半结构化图片的转换,再对转换了的图片进行投影计算,使用图像处理算法和模式识别方法对图片中的各版面组成部分进行分类和初步定位。对于图像处理后的结果不确定的情况,再采用Faster R-CNN的方法进行判断并得出结论,进而实现非结构化文档版面的结构化。这种方法在有效控制计算量的同时也降低了对深度学习所需要的数据集规模的要求,能够准确地对版面结构进行分类并精确定位非结构化文档中的表格部分。在非结构化文档的表格识别部分,着重对图像中出现的噪声影响严重、表格倾斜及有遮挡情况进行了处理,并对非结构化文档中提取出的表格进行类型细化,对全线表格、纯横线表格、色彩相间表格以及无线表格分别进行处理和算法设计,具体问题具体分析,使得表格结构识别的精度更高。最后对识别后表格中的每一个单元格进行切分,分别进行字符识别,完成Excel格式下表格内容的结构化复现。采用平均精度均值(Mean Average Precision,mAP)为指标,衡量了 Faster R-CNN网络对非结构化文档的分类及定位效果,并通过对表格识别算法的识别及转换率(识别并转换完成的表格数量与实验总样本数量的比值)的统计,对表格识别算法的效果进行的评估。本论文中所采取方法所得到的结果中mAP指数为71.3%,表格的识别转换率总体为81%。经过研究,本论文实现了对较常见非结构化文档版面内容的分类和定位功能;同时实现了将非结构化文档版面中表格部分的识别、提取以及复现为Excel格式表格的功能。测试结果表明,论文实现的方法能够比较准确地完成非结构化文档中文字、图片和表格的识别和定位功能;同时能够比较准确地将非结构化的表格复现为Excel格式的电子表格,为非结构化文档的进一步自动化处理奠定了良好的基础。

其他文献

我国投资移民发展较快原因分析及对策建议

我国正掀起改革开放以来的第三拨移民高潮,这拨移民高潮又称新世纪移民潮,其主力由新富阶层和知识精英组成,通过留学、技术移民或投资移民等方式移居海外。其中,投资移民与金

期刊

投资移民存在问题对策建议

火力运用跳出陈规旧法

随着信息技术在军事领域的广泛运用，各种火力打击兵器的毁伤效能大幅提高，火力打击已经成为战场的主体行动，火力主战已经成为信息化条件下重要的作战指导思想，而这些无疑会对火力

报纸

火力打击新特性

当今时代，随着信息技术的广泛应用，火力打击兵器发生了一系列新的质的飞跃，正由独立的作战单元发展成为网络化的武器系统。随着射程、精度和威力的不断增加，现代化军队的火力打击

报纸

右锁骨上窝富于细胞性神经鞘瘤1例

1临床资料患者,女,65岁,因右侧上肢麻木入院。该患于45天前发现右侧锁骨上窝肿物,直径约3cm,伴按压麻木感,因未影响日常生活未行系统治疗。近一周患者自觉右侧锁骨上窝肿物按

期刊

富于细胞性神经鞘瘤锁骨上窝

干白葡萄酒新工艺

我国葡萄酒酿造虽有悠久历史，但相比法国、意大利等国家，不论在葡萄酒的产量上，还是质量上、花色品种上、生产技术上、发展速度上均有一定差距。我国在以前的葡萄酒酿造上一直是

期刊

干白葡萄酒果胶酶酵母发酵

二语习得中的年龄差异与语言教学

本文首先回顾了语言学、心理学和神经生理学关于人类母语习得的一些主要理论,分析了儿童与成年人习得第二语言的差异,进而指出年龄对第二语言的习得起着关键性的作用,儿童与

期刊

母语的习得关键期假设心理因素社会因素外语教学

我国城市基层社会矛盾多元化解方式研究

随着我国经济的发展,城市基层社会矛盾呈现出上升的趋势。我国传统对基层社会矛盾的化解主要采取人民调解和信访等手段,这些手段"人治"成分较多,"法治"成分较少,很难适应现代

期刊

社会矛盾法治信访利益

刘丽芳治疗乳腺疾病验案2则

<正>刘丽芳教授现任湖南中医药大学第一附属医院大外科主任,系博士研究生导师,从医30余年,年平均诊治门诊及住院患者达万人之多,临床经验丰富,对于中医药治疗乳腺疾病颇有独

期刊

刘丽芳乳腺疾病白花蛇舌草猫爪草鹿角霜太子参皂角刺牛蒡子粉刺性乳痈女贞子

症瘕积块是胀病之根的认识

<正>症瘕积块与鼓胀,是肝病发展过程中轻重不同的阶段,症瘕积块类于肝炎、早期肝硬化的肝脾肿大;鼓胀类于中、晚期肝硬化腹水。症瘕积块留而不去,气滞血淤导致水停,久之则腹

期刊

症瘕积块胀病

基于科学发展观的政府绩效评估体系构建

长期以来，我国政府绩效评估体系存在着只求数量、不问质量的倾向。完善政府绩效评估体系需要引入正确的政绩观和科学发展观。构建基于科学发展观的政府评估体系应体现政府的主

期刊

科学发展观政府绩效评估体系perspective of scientific development governmental performance

非结构化文档的版面分析及表格提取

与本文相关的学术论文