论文部分内容阅读
PDF (Portable Docuent Format)由Adobe公司开发并推广,是一种独特的跨平台的便携文件格式。跨平台特性使得PDF文件可以广泛的运用于Windows, Unix,Mac OS等当前主流的操作系统中,并使其成为Internet上电子文档发行和数字化信息传播的理想文档格式。如今的互联网上,越来越多的电子书籍、产品使用说明书、公司公告财报、网络资料、科学文献、电子邮件等都开始使用PDF格式作为电子文档的首选格式。随着PDF格式的普及,大量有价值的信息都以PDF文档的形式呈现出来。因此从PDF中提取有价值的信息也成为了近年来的研究热点。然而由于PDF的结构相对复杂,从PDF中提取文本、图形、表格等信息的难度也相应增加,尤其是PDF中的表格信息。与Html等格式不同,PDF格式对于表格并没有单独的定义,PDF中的表格只是单纯的线条与文字的集合,因此PDF表格数据的识别和提取变成了不小的挑战。传统的针对网页中表格的识别和提取技术依赖于Html中表格的tag信息,因此很难直接应用于PDF中的表格提取,因此本课题提出了一种针对PDF的表格识别和提取的通用方法,为了验证方法的有效性和准确性,本课题将该方法应用在公司财务表格数据的提取上,经过测试,该方法具有较好的性能。本课题首先阐述了论文的研究背景,介绍了PDF结构的主要特点,同时对本系统使用的PDF类库PDFBox进行了介绍。接着对比了几种常用的表格提取方法,通过比较和分析各个方法的优劣最终引出本系统采用的方法。论文的后半部分对本方法涉及的技术难点进行了详尽的介绍,包括基本的表格框线识别,基于框线的表格还原,复杂首行首列表格的处理,跨页表格的合并,表格数据格式化等内容。最后通过实现PDF财报中三大财务报表表格数据的识别和提取对本系统的解析的效果和性能进行了相应的测试和评估。