论文部分内容阅读
当今是信息时代,用户面前呈现着海量数据。这些数据大多以HTML、PDF、WORD等文档格式进行存储。其中,PDF和HTML在数据的显示方面获得了巨大的成功,而在对文档的语义信息及其内部结构的描述上明显不足。这成为制约用户利用信息,应用程序处理数据的瓶颈。XML是W3C推荐的数据交换的标准。它是面向内容的,因此能够弥补HTML、PDF等格式在语义描述方面的不足。为此,把HTML,PDF等文档转换成标准化的XML文档成为了一个迫切的问题。这正是本文基于XML的信息抽取技术的研究背景。基于规则的信息抽取技术是信息抽取的主流方法。本文首先对此进行了研究,并提出了利用XSLT和XPath技术在数据定位和文档转换方面的优势来解决信息抽取问题。然后概述并分析了基于XML的信息抽取的基础理论和相关标准。为了编写更为简单、健壮和通用的抽取规则,本文分析了XSLT信息抽取规则的优化问题。在上述基础上,重点对两种流行的文档格式HTML和PDF的信息抽取的实现进行了研究。本文最主要的工作是构造了一个基于XML的PDF信息抽取系统。本系统的特点在于选择XML作为信息表现模型,以及XSLT作为信息抽取规则。系统的核心思想是,先将PDF源文档转换为一种中间XML文档,再利用文本特征、位置特征以及显示特征对中间XML文档进行基于XSLT规则的信息抽取。系统的实现主要分为三个模块:一是中间文档生成模块,结果是生成描述PDF文档的显示风格和编排结构特征的中间XML文档; 二是规则生成模块,通过对PDF样本文档的学习,以半自动化的方式生成XSLT抽取规则; 三是自动抽取模块,利用XSLT抽取规则从PDF文档集中抽取出有用数据,并封装成包含语义的XML文档格式。本系统对于实现基于语义的PDF文档的精确查询和管理,具有重要的现实意义。不仅如此,它的体系结构和主要模块的设计思想,对于其他文档的信息抽取系统的设计和实现也具有较高的借鉴价值。