论文部分内容阅读
PDF(Portable document format)是一种目前国际通用的电子文档开放标准。这种文件格式与操作系统平台无关,这一特点使它成为在Internet上进行电子文档发行和数字化信息传播的理想文档格式。越来越多的电子图书、产品说明、公司文件、网络资料、电子邮件开始使用PDF格式文件,各国政府机关、企事业单位均大量采用该格式作为标准,进行信息发布、交换与存储。表格作为PDF电子文档内容的重要组成部分,在实际工作和生活中被复用和再编辑的频率非常高,然而PDF表格具有的独特结构,使得一些常用的表格操作难以完成。在PDF中表格只是基于视觉的,也就是说,在PDF文档格式中并不存在表格格式,只存在一团团的文字和一些穿插其中的图像线,用户一般只能直观地从显示结果看到表格,而无法直接从文档格式中获取表格信息,人们称这种表格为“文字流”表格,而对于它的识别称为“基于文字流的表格识别”。传统的基于图像的表格识别技术虽然比较成熟,但是由于表格载体的巨大差异使得这些技术难以运用到基于PDF文字流的表格识别之中。综合以上因素,本文对基于PDF文字流的表格识别技术进行了研究,设计并实现了一套表格识别系统。本文所研究并实现的是基于PDF文字流的表格识别系统,该系统进行表格识别与重现的处理流程如下:首先,系统解析一个PDF文档,从PDF内容流中分离出文本、图像等原始信息;之后,系统建立文字流数据结构并保存文本对象信息,将PDF内容可视化;接着,用户根据屏幕输出内容框选待重现表格的所在区域;之后,系统进行表格内容栅格化处理,即对所有文字流节点按照水平和垂直方向分别进行空间划分,并将结果进行保存,形成概念上的待重现表格边框结构;随后,系统根据栅格化结果对表格内容进行归位,即从栅格化后形成的概念表格结构中找到每个文字流节点所在表格单元位置,建立文字流节点间的相对关系,实现表格实体结构;最后,系统对实体结构进行一维序列化输出,将结果保存成通用结构化编码格式,如HTML等,这样的结果可以进行网页形式浏览,也可导出到OA软件中进行可视化编辑。