Deep Web查询接口集成及搜索策略研究

来源 :河北大学 | 被引量 : 0次 | 上传用户:luchsky123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络技术与信息技术的快速发展,Web上的信息急剧增加,已经成为当今社会的重要资源,人们也越来越多地依赖搜索引擎来查找所需的信息。但是Web上存在大量的在线数据库,这些数据库中的信息通过提交查询实时产生,对于目前常用的搜索引擎是不可见的,称之为Deep Web。由于Deep Web中蕴藏的信息质量更高、规模更大,因此建立Deep Web数据集成系统成为数据库领域和信息检索领域的研究热点。本文主要在Deep Web查询接口集成和统一查询接口上的搜索策略两个方面进行了研究,这些都是Deep Web数据集成研究的重要内容。在查询接口集成方面,首先通过分析Deep Web查询接口页面的结构及其表现形式,将Deep Web接口分为三类,并提出了接口元素这一概念,给出了接口的形式化表示。在此基础上提出了一种基于知识学习和探测查询的Deep Web接口集成方法。该方法首先选择要集成的属性,然后在各接口元素中匹配这些属性,最后将匹配为同一属性的接口元素集成在一起,构成统一查询接口。该方法包括基于模板的匹配、基于领域知识的匹配、基于探测查询的匹配等步骤。实验表明该方法对接口抽取工作的依赖性较低并且具有较高的匹配准确率。对于集成的统一查询接口,本文改进了其上的搜索策略。首先针对所集成不同类型的Deep Web查询接口,提出了同时映射、优先级映射和集成映射三种映射方式以及二次查询的方法来扩展统一查询接口功能,以提高查询准确率。然后提出了建立本地索引数据库的方法,以提高查询效率。分析表明,本文所述方法具有较高的查询准确率和时间效率。
其他文献
随着互联网的发展,Web不仅实现了全球的信息交换和资源共享,而且Web上的信息量也成指数级的增长。一方面,海量的Web信息为用户提供了获取信息的源泉;另一方面,如何高效的从海
连续属性的离散化一般是做为机器学习、数据挖掘的一项重要的预处理步骤,针对离散化问题,研究者们提出了诸多方法,例如早期的等宽等频算法及后来的利用遗传算法进行离散化等
近年来,计算机技术已经有效地应用于部队的设备管理工作中。随着部队设备综合信息管理系统的广泛使用,各分区系统的数据量将越来越大,同时军区数据中心也积累了大量的设备维修数
人类社会发展到现在已经进入到一个知识大爆炸的时代。为了应对知识的迅速累计,将知识信息化成为了必然的趋势。信息化的一个重要的特征就是强大的知识检索功能。在各种检索工
由于高性能计算和大规模分布式数据应用需要对输入/输出数据集进行大量共享式并发访问,本文提出并实现了LDDSS(Large-scaled Dataset DistributedStorage System)模型,以通过改
随着计算机处理能力的不断增强和网络通信技术的迅速发展,越来越多的计算机连接到了Internet上,在传统的客户机╱服务器管理模式中,服务器端承受着巨大的负载,而客户端基本上
数学公式图像的自动识别与理解,是文档图像处理与模式识别领域的世界级难题。数学公式是非常复杂的一种文档结构,难以被计算机进行自动处理。对数学公式文档图像进行精确地识别
当今迅速发展的知识爆炸,使得人们不得不即时的“充电”来适应这个快节奏的新时代,随着而来的新的学习软件环境的出现以及多功能的教学系统的实施,人们依靠网络软件来学习的
自从人类有了资产保护,就有了授权这个概念。守卫、门以及锁自古以来就被用于限制私自访问贵重物品。在今天的信息技术环境中,授权关心的是用户如何访问计算机系统的资源;通
网格技术试图聚合分布在世界各地的计算、存储、知识、通信和信息等各类资源,以服务大众为目的,实现资源共享与协同工作。网格任务调度技术问题尤其突出。网格所具有的动态性