论文部分内容阅读
随着互联网技术的发展,Web成为各种应用与研究的重要数据源之一,为信息检索、数据挖掘等领域提供高质量的数据。Web中一类重要的数据保存在可搜索网络数据库中,只有通过提交查询请求,网站背后的数据才能按照一定的模板被扩展在网页上,如电子商务网站的商品信息网页,这类动态页面称为DeepWeb。Deep Web数据量大、发展迅猛、领域覆盖全面、主题性强、信息结构化程度高,具有很高的应用价值。因此,如何从Deep Web中有效地抽取信息,帮助人们快速、准确、有效的利用这些海量数据,具有重要的现实意义和广阔的应用前景。Internet上的各个网站的信息相互独立,Deep Web数据收集起来十分困难,在这种情况下,通常的搜索引擎发挥的作用微乎其微。通过手工书写规则完成信息抽取的方式虽然准确率高,技术门槛低,但是由于信息源的多样化和潜在的改版风险,手工方式无法满足人们对信息获取的需求。结合上述背景,可以发现Web信息自动抽取技术的研究与实现是一个非常迫切需要解决的问题。针对这一问题,本文在Web信息自动抽取技术方面,包括查询接口判定的机器学习方法、Web数据自动抽取、数据项对齐等方面,进行了深入而系统的研究,同时开发了Web信息自动抽取系统。本文具体的研究工作和研究成果如下:(1)采用基于决策树的查询接口自动判定方法。自动提取网页标签的特征,形成特征集合,根据几种分类算法的准确率的比较和分析,选择使用决策树分类器对网页标签进行分类。(2)在基于DOM相似度匹配的Web数据抽取算法的基础上,提出针对抽取结果的过滤算法,提高抽取结果的准确率。首先通过DOM相似度匹配算法抽取列表页面,但是由于这种算法仅仅挖掘网页的重复结构,导致抽取的准确率不高。在这个基础上,提出基于熵的过滤算法过滤抽取结果,并通过k-means聚类算法判断噪音的熵值。(3)在基于部分树对齐的数据项对齐算法的基础上,提出有效的对齐规则,提高数据项对齐的准确率。(4)在以上研究内容的基础上,设计开发了Web信息自动抽取系统,系统实现功能包括:1)给定多个数据源的情况下,自动判定查询接口,并能自动填充并提交查询请求。2)对查询请求返回的列表页面实现自动抽取,并对结果进行过滤,提高了抽取的准确率。3)将从列表页面中抽取的数据记录的数据项对齐,并保存。4)在存在分页导航的情况下,实现分页导航的自动连续抽取并将抽取结果保存。论文创新点如下:(1)采用基于决策树的查询接口自动判定方法,使用决策树分类模型自动判定查询接口,达到较高的准确率。(2)提出一种改进的列表页面数据自动抽取算法。在目前已有的基于DOM相似度的Web信息自动抽取算法的基础上,提出基于熵的过滤算法,达到更高的准确率。(3)提出一种改进的数据项对齐算法,在已有的部分树对齐算法的基础上,增加对齐规则,使得数据项的对齐达到更高的准确率。实现表明,本文提出的技术方法可以在基本无人工干预下快速、自动地抽取列表页面的丰富数据。