论文部分内容阅读
随着互联网技术的不断发展,越来越多的企业和机构采用Web网站来发布信息,Web逐渐成为人们最大的数据信息来源。于是越来越多的研究和应用希望从Web中获取有用的信息,以便进行深入的分析处理,从而提供深度信息服务。Web网页上存在部分结构化的数据,但是大部分都是非结构化的数据;而数据分析工具却需要基于结构化数据才能工作。如何从非结构化的Web页面中抽取用户或应用感兴趣的结构化数据,就是Web信息抽取的研究工作。在过去的二十年里,Web信息抽取技术的相关研究取得了较大进步,然而现有的Web信息抽取系统中,半自动化系统的自动化程度不够高,自动化系统的抽取精度和召回率不够高。针对现有研究工作的不足,本文研究了 Web信息抽取规则自动生成技术,主要包括以下四个方面:(1)研究并提出Web信息抽取的几个基本模型:Web信息抽取全过程模型、网页数据抽取模型、以及网页记录抽取模型和网页数据项抽取模型。在这些模型的基础上,本文设计具有较强描述能力的Web信息抽取规则语言。(2)研究并提出网页的多特征综合自动分析技术。针对现有自动化Web信息抽取系统的抽取精度和召回率不够高的问题,本文综合利用DOM树结构特征,视觉特征以及文本语义特征等多种特征来自动识别网页数据记录和数据项,并对齐不同数据记录间的数据项;本文还研究了如何基于对齐的数据项进行数据项自动标注。(3)研究并提出基于网页自动分析的抽取规则生成技术。本文研究了如何基于样本页面自动分析得到的结果生成抽取规则。该抽取规则生成技术包括数据区,数据记录和数据项的抽取规则自动生成。(4)设计并实现了一个自动化Web信息抽取的原型系统。除此之外,为了满足大规模Web信息抽取的需求,本文还提出了基于Hadoop的大规模Web信息抽取并行化方法。我们对上述技术进行了实验验证。实验结果表明,网页的多特征综合自动分析技术能够取得较高的抽取精度和召回率;基于自动分析结果自动生成的抽取规则也具有较高的抽取精度和召回率;大规模Web信息抽取的并行化方法能够实现线性加速。