论文部分内容阅读
随着互联网的高速发展及其各种Web应用的快速增长,网络上的信息规模急剧扩大。网络已经成为人们生活中重要的知识库,人们对高效地获取信息的需求尤为迫切。在网络的海量数据中,包含了大量的半结构化的领域知识,例如电影、书籍和酒店等等,这些领域知识与我们的生活秘密相关。目前,虽然可以通过搜索引擎从海量数据中进行信息检索,但是搜索的结果并不是非常可靠。而这些领域知识往往来自供应商的后台数据库,同时基于关键字匹配的搜索引擎由于自身的限制,不能索引这些嵌入在半结构化的HTML网页中的领域知识。如何从大规模的Web网站中自动抽取并组织这些领域知识成为信息抽取研究的热点。Web信息抽取技术(Web Information Extraction)可以从半结构化的网页中抽取数据,并以结构化的方式存储在数据库中。本文在分析当前Web信息抽取技术的基础上,利用标签路径技术(Tag Path Technique)代替DOM树来表示HTML文档。该表示方法大大降低了标签的数量,提高了算法的性能。针对半结构化的网站,提出了一种新的基于Bootstrapping的自动抽取领域知识的算法:Domain-specific Knowledge Extraction from Websites, DKEW。 DKEW利用本体(Ontology)来统一标注同一领域中抽取的半结构化数据,便于存储和查询。DKEW首先利用基于标签路径技术的聚类算法对目标网页进行聚类,过滤掉噪音网页,DKEW只抽取包含详细信息的半结构化网页。根据标签路径技术,提出一种新的模式定义。对同一类别的网页,借助于机器学习方法和领域种子自动地进行模式学习。然后利用学习到的模式自动抽取领域知识并匹配到事先定义的领域本体,将匹配好的领域知识存储在结构化的、便于查询的知识库表格中。在知识抽取的同时,利用新抽取的具有高可信性的领域知识来扩充领域种子和Ontology,以便下次迭代应用。最后,通过Bootstrapping方法将相关的知识抽取过程结合起来,使之成为一套无需人工监督的自动抽取工具。DKEW只需要少量的人力进行领域种子的初始化。为了验证DKEW,本文利用自定义的网络爬虫爬取多个领域的网页数据。实验表明DKEW不仅在性能上优于现有的Web信息抽取方法RoadRunner,而且在效率上也远远高于RoadRunner。相比于RoadRunner需要手动匹配抽取的数据,DKEW利用自动的方式进行本体匹配,节省了大量的人力和时间。在多个领域上的实验表明,DKEW可以应用在大规模的Web信息抽取中。