论文部分内容阅读
Deep Web是Web数据管理研究面临的一个新的领域,集成系统将收集不同Web数据源返回的查询结果并加以集成,以提供给用户一个统一的视图。为了保证集成后的查询结果具有很高的用户满意度,从如下两个方面进行考察: 保证查询结果无冗余。Deep Web数据集成中某些领域数据冗余度很高,表示现实世界中同一实体的记录往往以不同的形式存在于各个不同的Web数据源里。这将导致彼此重复的一些记录往往同时出现在查询结果集中,而用户显然不满意于重复地浏览带来的开销。于是,需要一种自动的手段识别出不同的底层数据源里冗余的记录,而Deep Web集成系统中数据源的规模之大又对实体识别的策略提出了新的挑战。 保证查询结果完备性。集成系统中数据的获取仍然需要通过将查询转发至各个Web数据源的本地接口来实现。于是由于Web数据源查询接口在表达能力上固有的限制,以及用户对Web数据库中的实际内容缺乏总体把握,造成用户查询并不能取得数据库中所有符合用户意愿的结果,即缺乏完备性。于是,需要一种自动的手段进行基于用户查询的衍生结果推荐。 在这篇论文中,针对如上两个方面,做出了如下的贡献: 首次提出了领域级别的实体识别概念,试图为一个领域建立一个实体识别模型,该模型适用于同一领域中的所有数据源。在实体识别的模型中,用三元逻辑代替传统的介于0-1之间的实数值去衡量属性值的相似度,并以规则集的形式进行实体是否匹配的判别。选取该领域中的两个数据源建立初始的实体识别模型,然后随着新数据源的加入,对模型进行有效的演化。更重要的是,从属性相关性、数据源的选择顺序和桥效应这三个方面进行优化,从而有效地改善了实体识别模型的性能。 鉴于Web数据源只能通过查询接口获取数据的特性,从查询的角度入手,提出了一种领域无关、用户透明的方法,为用户自动推测和获取所以满足用户意愿的结果。本文首次提出了根据属性之间客观存在的相互影响关系,建立查询之间相关度模型的概念。以用户查询为基础,根据相关度模型,衍生出若干相关的新查询,同时基于代价和用户满意度的考虑,保证新查询的集合最小覆盖所有符合用户意愿的结果。 本文提出的方法比较理想的解决了查询结果集成中这两方面的问题。根据实验的结果,实体识别和结果推荐的正确率均达到预期的标准,提供了一种新的有效的Deep web环境下查询结果集成方案。