Deep Web实体搜索的关键技术研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:hzn_arm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web上的信息量巨大而丰富,并且已成为了企业、个人赖以生存和发展的主要信息资源。随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段。然而,Deep Web环境中的数据信息对于传统的搜索引擎来说是不可见的,针对Deep Web的新型搜索引擎还远没有发展成熟。面对Deep Web环境的信息量巨大、内容缺乏结构性、结果异构性、数据状态可变等特性,使得Deep Web信息搜索课题不断面临新的挑战和机遇。因此,如何有效地搜索Deep Web中的数据资源成为一个值得研究的问题,其目标是从大规模的、动态变化的Deep Web数据中自动地获取满足用户需求的结果信息。为此,本文针对Deep Web搜索过程中的关联知识构建、实体抽取、实体评估、实体去重等内容进行了研究。主要工作包括以下几点:  (1)提出了一种Deep Web实体搜索机制DWESM。通过分析传统的页面级搜索技术和面向专业领域的垂直搜索技术的特点,提出了DWESM的层次模型,具体由关联知识构建、实体抽取、实体评估及实体去重等模型组成;DWESM以网页中的实体数据作为操作的基本单元,不仅能够适合Deep Web的环境特点,而且继承了垂直搜索中的技术思想,更加专注、具体和深入。  (2)提出了一种基于语义及统计分析的关联知识构建模型SS-KCM。基于文本匹配模型、语义分析模型和分组统计模型,构建了SS-KCM的整体模型框架;提出了文本粗略匹配、语义关联获取以及分组统计分析的三段式逐步求精策略,基于文本特征、语义关联及约束规则获取实体间的关联关系;提出了静态分析、动态协调相结合的自适应知识维护策略,构建和完善实体关联知识库,以适应Web数据的动态性并保证关联知识的完备性;通过实验验证了SS-KCM中所采用的关键技术的可行性和有效性。  (3)提出了一种基于DOM树的Deep Web实体抽取模型D-EEM。D-EEM采用基于DOM树的自动实体抽取策略,利用DOM树中的文本内容和层次结构来确定数据区域和实体区域,提高了实体抽取的准确性;提出了一种基于上下文距离和共现次数的语义标注方法,能够有效地将来自不同数据源的抽取结果进行合成;通过实验验证了D-EEM在抽取效率及抽取准确性等方面所具有的优势。  (4)提出了一种局部与全局评估相结合的实体评估模型LG-ERM。针对实体评估所涉及的实体特征、数据源特征、实体关联关系等影响因素进行了分析并量化表示;提出了一种局部与全局评估相结合的实体评估策略,既在数据源内部进行局部多重评估处理,又基于实体关联知识将局部评估结果进行聚集整合,有效地提高了评估的准确性;通过实验验证了LG-ERM所采用的关键技术的可行性和有效性。  (5)提出了一种基于多相似度估算器的实体去重模型。针对实体描述属性的不同特征,定义了一系列相似度估算器,以适应不同的属性类型;提出了实体记录相似度的计算方法以及不确定重复记录的处理策略;实验数据表明,该模型在重复记录识别的准确度和有效性等方面具有一定的优势。  (6)设计并实现了DWESM的原型系统。实现了本文所提出的关联知识构建、实体抽取、实体评估、实体去重等理论和方法,并验证了这些理论和方法的正确性和有效性。  总之,本文研究了Deep Web实体搜索中的关联知识构建、实体抽取、实体评估以及实体去重等问题,提出了一种适合Deep Web环境的实体搜索机制,能够有效地解决Deep Web搜索中结果数据的抽取、排序、消重及整合等问题。理论分析和大量的实验结果证明了这些方法的有效性和高效性。希望这些方法和技术对于开发Deep Web搜索系统具有一定的参考价值。
其他文献
社交网络依托于互联网的广泛应用,不仅拥有巨大的用户群体,还能够超越地理位置限制、时间限制和社会角色限制来拉近用户之间的距离,使得沟通成本更低、时效性更强,因此成为人们交
无线传感器网络被认为是21世纪最重要的技术之一,而无线传感器网络操作系统是无线传感器网络应用的重要支撑技术。无线传感器网络操作系统的设计须满足内核代码量小、低功耗、
网格资源具有异构性和多态性,且网格应用的服务对象对服务的服务质量有特定的要求。SerivceBSP模型是在新的网格环境下提出的编程模型。基于ServiceBSP模型编写的应用程序(以
信息技术飞速发展,社会不断进步,人们对智能化和节能家用电器的需求日益凸现,智能家庭网络系统应运而生。智能家庭网络技术综合了操作系统、Internet接入、微电子等多门学科,
在当今信息化时代,人们对教育提出了新的要求,基于Web的网络学习系统作为一种新的教育方式备受社会的关注。网络环境以其资源的丰富性、交互的实时和广域性、学习方式的灵活性
随着互联网的发展与普及,Web资源成为人们获取信息的重要来源,而且相当多的资源只有通过互联网才能获得(例如未发表的论文、研究报告等)。但是随着web资源的急剧增加,如何充分利
在知识经济时代,知识管理已经成为一个组织提高竞争力的重要手段。与此同时,由于本体具有定义明确、形式化、方便共享等特性,在知识组织和知识管理方面表现出巨大的优势。本文经
随着计算机技术和通信技术的迅猛发展,计算机应用日趋广泛与深入,同时也使计算机安全问题更加突出和复杂。传统的安全手段已经不能满足现代网络安全的发展要求,入侵检测作为一种
集群文件系统作为网络存储系统的核心技术,很好地解决了传统文件系统中存在的性能、容量、共享、可扩展性等问题。然而随着需求增加,集群文件系统的规模可能扩展到包含大量节点
本文以某防空C4KISR系统为背景,并针对C4KISR这样大型复杂系统的建模方法、以及建模后的仿真实现,做出了深入的研究。 首先本文分析了C4KISR系统的基本理论框架,包括定义、功