Deep Web数据集成中的查询结果处理研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:zzw441884878
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Deep Web是Web数据管理研究面临的一个新的领域,集成系统将收集不同Web数据源返回的查询结果并加以集成,以提供给用户一个统一的视图。为了保证集成后的查询结果具有很高的用户满意度,从如下两个方面进行考察:  保证查询结果无冗余。Deep Web数据集成中某些领域数据冗余度很高,表示现实世界中同一实体的记录往往以不同的形式存在于各个不同的Web数据源里。这将导致彼此重复的一些记录往往同时出现在查询结果集中,而用户显然不满意于重复地浏览带来的开销。于是,需要一种自动的手段识别出不同的底层数据源里冗余的记录,而Deep Web集成系统中数据源的规模之大又对实体识别的策略提出了新的挑战。  保证查询结果完备性。集成系统中数据的获取仍然需要通过将查询转发至各个Web数据源的本地接口来实现。于是由于Web数据源查询接口在表达能力上固有的限制,以及用户对Web数据库中的实际内容缺乏总体把握,造成用户查询并不能取得数据库中所有符合用户意愿的结果,即缺乏完备性。于是,需要一种自动的手段进行基于用户查询的衍生结果推荐。  在这篇论文中,针对如上两个方面,做出了如下的贡献:  首次提出了领域级别的实体识别概念,试图为一个领域建立一个实体识别模型,该模型适用于同一领域中的所有数据源。在实体识别的模型中,用三元逻辑代替传统的介于0-1之间的实数值去衡量属性值的相似度,并以规则集的形式进行实体是否匹配的判别。选取该领域中的两个数据源建立初始的实体识别模型,然后随着新数据源的加入,对模型进行有效的演化。更重要的是,从属性相关性、数据源的选择顺序和桥效应这三个方面进行优化,从而有效地改善了实体识别模型的性能。  鉴于Web数据源只能通过查询接口获取数据的特性,从查询的角度入手,提出了一种领域无关、用户透明的方法,为用户自动推测和获取所以满足用户意愿的结果。本文首次提出了根据属性之间客观存在的相互影响关系,建立查询之间相关度模型的概念。以用户查询为基础,根据相关度模型,衍生出若干相关的新查询,同时基于代价和用户满意度的考虑,保证新查询的集合最小覆盖所有符合用户意愿的结果。  本文提出的方法比较理想的解决了查询结果集成中这两方面的问题。根据实验的结果,实体识别和结果推荐的正确率均达到预期的标准,提供了一种新的有效的Deep web环境下查询结果集成方案。
其他文献
无线传感器网络是一类系统资源极度受限的网络,尤其是能量资源,而网络本身的特殊应用往往要求网络必须能够长时间不间断的正常工作。因此,如何有效利用网络的有限能量资源,延长网
近年来,随着计算机硬件技术的不断进步,特别是内存价格的不断下降、容量不断增大以及64位处理器的出现使得计算机可使用超过4GB的内存。这些技术的发展和应用,大大增加了内存数
古树名木具有十分重要的生态、经济和社会价值,被誉为“活化石”。由于生态环境的急剧恶化以及许多急功近利的原因,导致古树名木被盗、被焚、被毁的现象频繁发生。本文提出将
企业资源计划ERP系统集信息技术与先进的管理思想于一身,是现代企业的运行模式,反映时代对企业合理调配资源,最大化地创造社会财富的要求,成为企业在信息时代生存、发展的基
随着互联网技术的蓬勃发展和相关应用的迅速普及,尤其随着Web2.0技术的发展,每个人不再仅仅是信息的消费者,更是信息的生产者,网民可以借助于电脑,手机等网络终端,随时随地在微博、
在高校的日常管理工作中,排课系统管理是其中的重要组成部分,是学校教学管理中最重要、最繁重的工作之一。排课表问题普遍存在于大中小各级学校中,这些学校,无论规模大小、学科多
随着科学技术的不断进步,社会发展步入知识经济时代。信息技术的深入发展和广泛应用,一方面使得海量的信息资源广泛存储于计算机和互联网当中,形成潜在知识宝库;另一方面,巨大的
飞行课目的仿真与飞行数据的智能评估预测在国内外的飞行训练中应用的越来越广泛,本文采用DirectX技术,在飞行训练智能评估系统的基础上,建立某型飞机3D模型,设计实现了某型飞机
现代信息技术的发展和社会信息化水平的提高对于软件功能、性能的要求越来越高,如何利用非常有限的时间和资源保证软件质量成为企业关注的重点。软件测试做为保证软件质量的关
随着各种信息处理技术的发展,人们可以访问的数字资源越来越多,如何从海量数据中方便快捷地得到人们所需要的信息成为人们非常关心的问题。  目前的信息服务还处于一种基于关