Deep Web实体搜索的关键技术研究

被引量 : 1次 | 上传用户:li21104
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web上的信息量巨大而丰富,并且已成为了企业、个人赖以生存和发展的主要信息资源。随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段。然而,Deep Web环境中的数据信息对于传统的搜索引擎来说是不可见的,针对Deep Web的新型搜索引擎还远没有发展成熟。面对Deep Web环境的信息量巨大、内容缺乏结构性、结果异构性、数据状态可变等特性,使得Deep Web信息搜索课题不断面临新的挑战和机遇。因此,如何有效地搜索Deep Web中的数据资源成为一个值得研究的问题,其目标是从大规模的、动态变化的Deep Web数据中自动地获取满足用户需求的结果信息。为此,本文针对Deep Web搜索过程中的关联知识构建、实体抽取、实体评估、实体去重等内容进行了研究。主要工作包括以下几点:(1)提出了一种Deep Web实体搜索机制DWESM。通过分析传统的页面级搜索技术和面向专业领域的垂直搜索技术的特点,提出了DWESM的层次模型,具体由关联知识构建、实体抽取、实体评估及实体去重等模型组成;DWESM以网页中的实体数据作为操作的基本单元,不仅能够适合Deep Web的环境特点,而且继承了垂直搜索中的技术思想,更加专注、具体和深入。(2)提出了一种基于语义及统计分析的关联知识构建模型SS-KCM。基于文本匹配模型、语义分析模型和分组统计模型,构建了SS-KCM的整体模型框架;提出了文本粗略匹配、语义关联获取以及分组统计分析的三段式逐步求精策略,基于文本特征、语义关联及约束规则获取实体间的关联关系;提出了静态分析、动态协调相结合的自适应知识维护策略,构建和完善实体关联知识库,以适应Web数据的动态性并保证关联知识的完备性;通过实验验证了SS-KCM中所采用的关键技术的可行性和有效性。(3)提出了一种基于DOM树的Deep Web实体抽取模型D-EEM。D-EEM采用基于DOM树的自动实体抽取策略,利用DOM树中的文本内容和层次结构来确定数据区域和实体区域,提高了实体抽取的准确性;提出了一种基于上下文距离和共现次数的语义标注方法,能够有效地将来自不同数据源的抽取结果进行合成;通过实验验证了D-EEM在抽取效率及抽取准确性等方面所具有的优势。(4)提出了一种局部与全局评估相结合的实体评估模型LG-ERM。针对实体评估所涉及的实体特征、数据源特征、实体关联关系等影响因素进行了分析并量化表示;提出了一种局部与全局评估相结合的实体评估策略,既在数据源内部进行局部多重评估处理,又基于实体关联知识将局部评估结果进行聚集整合,有效地提高了评估的准确性;通过实验验证了LG-ERM所采用的关键技术的可行性和有效性。(5)提出了一种基于多相似度估算器的实体去重模型。针对实体描述属性的不同特征,定义了一系列相似度估算器,以适应不同的属性类型;提出了实体记录相似度的计算方法以及不确定重复记录的处理策略;实验数据表明,该模型在重复记录识别的准确度和有效性等方面具有一定的优势。(6)设计并实现了DWESM的原型系统。实现了本文所提出的关联知识构建、实体抽取、实体评估、实体去重等理论和方法,并验证了这些理论和方法的正确性和有效性。总之,本文研究了Deep Web实体搜索中的关联知识构建、实体抽取、实体评估以及实体去重等问题,提出了一种适合Deep Web环境的实体搜索机制,能够有效地解决Deep Web搜索中结果数据的抽取、排序、消重及整合等问题。理论分析和大量的实验结果证明了这些方法的有效性和高效性。我们希望这些方法和技术对于开发Deep Web搜索系统具有一定的参考价值。
其他文献
随着信息技术与社会科学的快速发展,虚拟实验教学正以一种崭新的教学方式走进日常教学活动中,为教师带来了实验教学新的契机。建立适合学生发展、有助于学生能力提升的虚拟实
《在路上》一书是“垮掉的一代”最重要作家之一杰克·克鲁亚克的杰出作品。由于小说中描述的主人公在生活方式上和当时的主流社会格格不入,小说从发表初期就引起了极大的争
随着我国城市建设和经济的飞速发展,燃气管网越来越庞大、复杂,作为城市极为重要的基础设施,加强对燃气管网输配调度的优化以及信息化建设都具有相当重要的意义。论文讨论了
当代民主政治的重要标志是新闻自由。是宪政理念中不可或缺的一部分。现代法治国家对司法权力的配置及运行的基本要求是司法公正,是人们的政治走向法治和文明的呈现。新闻的
近年来,随着国税信息化程度的不断提高,除总局统一的应用软件外,山东国税系统的数据分析利用类软件取得了长足的发展,有力的促进了全省税收征管工作的开展。截止去年底,我省
教师评价是学校教育的重要组成部分,是学校管理的必要手段。有效地开展教师评价,对于全面贯彻教育方针、深化教育改革、加强教师队伍管理工作,提高教育质量具有重要意义。近
铁路传输网为铁路各种业务应用提供传输通道,随着铁路信息化的深入,对铁路传输网的容量需求也越来越高,也对传输网络的安全性提出了更高的要求,随着通信产业的不断发展,传输
环境问题与能源危机的日益严重、政府关于环境保护的法律、法规及标准的日益严格等问题,企业必须将环境管理和供应链管理结合起来进行研究,充分考虑企业生产对环境的影响,实施绿
作为医疗机构改善经营管理的重要参考,当前的患者满意度评价面临着可信度和有效性的强烈质疑,如何科学地测量患者满意度已经成为理论研究和实践管理中的重要难题。本文扎根于
背景为支持优秀青年骨干教师、医师以及留学回国人员的教学、科研工作,使其能尽快启动科研项目,为申报国家级、省部级的课题打下扎实的基础,某院设立了目标基金。该项基金自