一种面向PDF文件的表格数据抽取方法的研究与实现

被引量 : 20次 | 上传用户:z19910620
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
PDF (Portable Docuent Format)由Adobe公司开发并推广,是一种独特的跨平台的便携文件格式。跨平台特性使得PDF文件可以广泛的运用于Windows, Unix,Mac OS等当前主流的操作系统中,并使其成为Internet上电子文档发行和数字化信息传播的理想文档格式。如今的互联网上,越来越多的电子书籍、产品使用说明书、公司公告财报、网络资料、科学文献、电子邮件等都开始使用PDF格式作为电子文档的首选格式。随着PDF格式的普及,大量有价值的信息都以PDF文档的形式呈现出来。因此从PDF中提取有价值的信息也成为了近年来的研究热点。然而由于PDF的结构相对复杂,从PDF中提取文本、图形、表格等信息的难度也相应增加,尤其是PDF中的表格信息。与Html等格式不同,PDF格式对于表格并没有单独的定义,PDF中的表格只是单纯的线条与文字的集合,因此PDF表格数据的识别和提取变成了不小的挑战。传统的针对网页中表格的识别和提取技术依赖于Html中表格的tag信息,因此很难直接应用于PDF中的表格提取,因此本课题提出了一种针对PDF的表格识别和提取的通用方法,为了验证方法的有效性和准确性,本课题将该方法应用在公司财务表格数据的提取上,经过测试,该方法具有较好的性能。本课题首先阐述了论文的研究背景,介绍了PDF结构的主要特点,同时对本系统使用的PDF类库PDFBox进行了介绍。接着对比了几种常用的表格提取方法,通过比较和分析各个方法的优劣最终引出本系统采用的方法。论文的后半部分对本方法涉及的技术难点进行了详尽的介绍,包括基本的表格框线识别,基于框线的表格还原,复杂首行首列表格的处理,跨页表格的合并,表格数据格式化等内容。最后通过实现PDF财报中三大财务报表表格数据的识别和提取对本系统的解析的效果和性能进行了相应的测试和评估。
其他文献
建筑业历来是我国国民经济的支柱产业,近些年,随着建筑施工行业企业的增多,建筑市场日趋饱和、且竞争更加激烈;“十一五”国家提出了“走出去”的发展战略,建筑施工行业要积极参与
为分析降雨空间分布非一致性对城市内涝的影响,应用耦合了水文和水动力过程的数值模型,以陕西省西咸新区海绵城市部分核心试点区为研究区域,对不同重现期设计暴雨及离差系数C
目的:通过对欣胃颗粒的实验研究,客观评价欣胃颗粒对慢性萎缩性胃炎模型大鼠的胃液pH的影响,从而为肯定欣胃颗粒对慢性萎缩性胃炎的治疗提供有力依据。方法:将120只雄性健康Wis
比如,日本报纸的报道中,曾有这样的提法:“毒品是社会的癌症”。虽然这是用来形容毒品的危害程度,但受到癌症患者的强烈抗议,“患癌症好像伤害了社会一样”,这是媒体不负责任的乱用
在球扁钢的轧制过程中,其断面的不对称性结构必然产生较大的不均匀变形,使其轧制难度大,而孔型系统设计及优化是解决轧制不对称断面型材时不均匀变形问题的关键。本文针对生产难
目的:探讨改良膀胱尿道吻合法在机器人辅助腹腔镜前列腺癌根治术(RARP)中的应用价值。方法:2014年9月~2016年9月于我院行RARP的89例患者,均采用双针倒刺自膀胱颈5点和7点连续
辊式矫直作为修正轧后带钢缺陷的一道重要工序,普遍被用于消除由于外力作用、温度变化及内力消长而发生的弯曲或扭转变形。辊式矫直对带钢控制的实质是对其弯曲程度与内应力
材料是工程和高新技术进步的基础,高分子聚合物基复合材料作为材料中的后起之秀带来了材料和工程领域的重大变革。伴随着工业化大生产进程的加速、城市扩建步伐的加快、城市
互联网的迅速发展,使信息的存储和传播方式发生了巨大的变化,彻底颠覆了人们获取信息的方式和渠道,在促进文化发展的大背景下,也给版权的管理和保护带来了前所未有的难题。世
在中国古代历史上,各种灾荒、战争频繁发生,人们因此不断采取各种救荒措施以应对天灾人祸。随着救荒理论的发展和措施的完善,相应地陆续出现了一些书籍文献,记录曾经发生的灾