论文部分内容阅读
随着网络技术的日益成熟,Web的飞速发展使其成为了一个浩瀚而复杂的巨大数据源。按照数据蕴藏的深度,整个Web可以进一步划分为Surface Web和Deep Web,目前Deep Web中的信息量是Surface Web的550倍之多,并且还在迅速地增长,这使得Deep Web成为人们获取信息的一个重要途径。DeepWeb中信息的获取要通过查询接口在线访问其后端的Web数据库,传统的搜索引擎无法索引到其中的内容。为了有效地利用Deep Web中的资源,必须对DeepWeb数据进行集成。但由于Deep Web规模巨大,如何有效地提高集成效率已经成为数据集成领域的一个重要研究课题。本论文以Deep Web数据集成系统为目标应用,面向Deep Web中的海量数据,从Web数据源发现和数据库选择两方面着手,研究如何提高集成效率,主要工作包括以下两个方面。Deep Web数据源排序:由于当前的研究主要关注的是面向领域的数据集成,因此为减少需集成的数据源数量,在Web数据库的发现过程中,只需找出相关领域的数据源即可。本文介绍了一个基于属性同现框架的资源选择系统,通过该系统,可以在海量的数据源中发现特定领域的数据源。增量式随机漫步的Web数据库采样:将用户在集成接口上的查询分发给所有的Web数据库,显然会造成访问代价过高且降低下一步查询结果处理的质量,因而在Web数据库选择阶段找到合适的Web数据库至关重要。本文提出增量式随机漫步的Web数据库采样方法,弥补随机漫步方法不能处理关键词属性的不足,能够有效的从Web数据库中获得近似随机的样本,通过对样本的分析为用户的查询选择最合适的Web数据库。本文首先介绍一个面向领域的集成框架,并以此为依据,着重探讨如何在数据库发现和选择过程中提高集成效率。本文的课题基础也是目前数据集成领域应用比较广泛的技术,这使本文课题研究既具有探索性的理论研究价值,也具有较大的应用价值和现实意义。