Deep Web数据源发现及选择方法研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:mindy27
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的日益成熟,Web的飞速发展使其成为了一个浩瀚而复杂的巨大数据源。按照数据蕴藏的深度,整个Web可以进一步划分为Surface Web和Deep Web,目前Deep Web中的信息量是Surface Web的550倍之多,并且还在迅速地增长,这使得Deep Web成为人们获取信息的一个重要途径。DeepWeb中信息的获取要通过查询接口在线访问其后端的Web数据库,传统的搜索引擎无法索引到其中的内容。为了有效地利用Deep Web中的资源,必须对DeepWeb数据进行集成。但由于Deep Web规模巨大,如何有效地提高集成效率已经成为数据集成领域的一个重要研究课题。本论文以Deep Web数据集成系统为目标应用,面向Deep Web中的海量数据,从Web数据源发现和数据库选择两方面着手,研究如何提高集成效率,主要工作包括以下两个方面。Deep Web数据源排序:由于当前的研究主要关注的是面向领域的数据集成,因此为减少需集成的数据源数量,在Web数据库的发现过程中,只需找出相关领域的数据源即可。本文介绍了一个基于属性同现框架的资源选择系统,通过该系统,可以在海量的数据源中发现特定领域的数据源。增量式随机漫步的Web数据库采样:将用户在集成接口上的查询分发给所有的Web数据库,显然会造成访问代价过高且降低下一步查询结果处理的质量,因而在Web数据库选择阶段找到合适的Web数据库至关重要。本文提出增量式随机漫步的Web数据库采样方法,弥补随机漫步方法不能处理关键词属性的不足,能够有效的从Web数据库中获得近似随机的样本,通过对样本的分析为用户的查询选择最合适的Web数据库。本文首先介绍一个面向领域的集成框架,并以此为依据,着重探讨如何在数据库发现和选择过程中提高集成效率。本文的课题基础也是目前数据集成领域应用比较广泛的技术,这使本文课题研究既具有探索性的理论研究价值,也具有较大的应用价值和现实意义。
其他文献
软件测试是保证和提高软件质量的一种重要手段。在进行软件测试时,经常会碰到oracle问题,即程序的预期输出难以确定。蜕变测试通过检齐多个执行结果之间的关系来测试程序,有效地
软件测试是软件产品开发的重要环节,它直接关系到软件产品的质量、进度和成本。当前,程序正确性证明还不能成为软件质量保证的有效手段。在这种情况下,软件测试在将来相当长
本文对现有的语音识别技术发展现状进行了分析,研究了语音识别的基本理论,包括语音信号生成的数学模型、预处理、端点检测和特征参数提取。在此基础上,讨论了语音识别系统实
随着网络技术的飞速发展,计算机网络已经渗透到社会生活的各个方面,随之而来的网络安全问题也越来越引起人们的关注。相对于静态的防火墙技术,以数据分析为基础的、动态的入
假冒伪造给世界经济造成了巨大损失,为了维护经济秩序的正常运行,很多研究人员结合电子、信息、生物和新材料技术开发了多种防伪产品。实践表明,目前大多数防伪产品并不能真正起
本文针对高等教育自学考试命题资源之间的质量和命题人员水平差异,造成接口众多、访问性差、安全性差等多方面的结局,从而形成了一个个的“信息孤岛”,在这样的技术应用背景
由于医学影像本质上具有模糊性、不均匀性和易受噪声污染等特点,如何对所获得的医学影像进行后处理,得到更有诊疗价值的信息就变得尤为重要。本文研究了一种新的时频分析方法
在过去的十几年里,全球移动通信发展迅速,除了单一的话音业务外,数据业务也获得了极大的增长。然而,任何单一技术的无线网络都不能满足未来人们对移动通信以及普适计算的需求
Web2.0时代的信息共享和在线协同让每个用户不但可以从互联网上获取各种信息,还能自由地发布各种信息或对已有数据添加标注。一种普遍的应用就是对论坛上发布的文章添加标签
移动学习是远程教育的新手段,是无线通信网络技术与移动计算技术相结合的产物。移动学习是数字化学习的全新方式,它突破了传统学习对时间和空间的限制,让随时随地的学习成为