基于路径特征的复杂本体匹配学习

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:wyx8113999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本体是实现语义网的关键组成部分,是对领域知识的一种形式化表达。它用来标注语义网络上的网页、数据等资源,目的在于支持应用系统的语义集成和互操作。近年来,本体的数量快速增长,特别是链接开放数据的繁荣发展,构建了大量本体和语义链接数据,覆盖了医学、艺术、地理等多种领域,进一步推动了语义网技术的发展。其中包含了海量RDF三元组,且数量在不断增长。然而由于构建本体的目的不同,描述交叉领域甚至是相同领域的本体在语法、结构和语义层面存在很大程度的异构性,这阻碍了本体所标注信息的互操作。  针对本体异构问题,本体匹配通过建立不同本体间实体(类、属性或实例)的对应关系来支持信息的转换和集成。大多数的本体匹配方法和系统局限于发现单个实体之间的等价或者包含关系。然而,这种形式的简单匹配并不总能够正确地反映待匹配实体之间的关系。较少的研究关注于复杂匹配,即源本体中的一个类或属性与目标本体中多个类和属性的组合匹配,这主要是由于复杂匹配的发现更加困难。  现有的复杂本体匹配方法主要分为基于匹配模式的方法和基于机器学习的方法,前者需要人工制定启发式规则而后者易陷入局部最优解。此外现有的复杂匹配方法均未考虑本体数据不完整性和噪音对匹配结果造成的影响。针对这些问题,本文以复杂本体匹配为目标展开研究,主要完成如下工作:  (1)提出了一种基于路径特征的复杂本体匹配学习方法。方法的关键是引入了路径特征来刻画本体中实例具有的性质。根据本体中的实例声明构建表示实例类信息和实例属性关系的实例图,然后从实体图中抽取路径并泛化得到路径特征。在此基础上使用一阶归纳学习器来组合路径特征得到复杂匹配结果。与以往的基于一阶归纳学习器的复杂匹配方法相比,匹配的学习不以单个实体而以路径特征为基本单位,在链接开放数据集上的实验结果表明提出的方法能够自动学习到本体间的复杂匹配且能够有效缓解局部最优问题。与基于模式的方法相比,提出的方法不需要人工定义启发式规则。  (2)提出了一种复杂本体匹配的联合学习方法。由于本体数据的不完整性和噪音会造成匹配结果出现非等价现象,因此方法利用类的相似性来修复基于路径特征方法得到的非等价匹配。方法的关键在于将相似的类具有相似的匹配这一假设引入到复杂匹配的学习过程中,依靠不同类的相似性关系来连接不同类的复杂匹配学习任务,达到相互促进的目的。通过综合评价复杂匹配在实例层面和语义层面的质量,将复杂匹配问题转化为带约束的二次优化问题。在链接开放数据集上的实验结果表明该方法能够有效地修复由数据不完整和数据噪音所造成的非等价匹配。  复杂本体匹配的实现相较于简单匹配更为困难。针对现有方法存在的问题,本文提出了两种实现方法。基于路径特征方法中的路径特征涵盖了大多数的匹配模式;同时利用路径特征获取复杂匹配降低了一阶归纳学习器的搜索空间,不易陷入局部最优解。针对本体数据不完整性和噪音造成的非等价匹配,我们首次提出复杂匹配的联合学习方法对其进行修复。方法利用了本体中的结构、实例、类相似性等信息,使得匹配结果在实例层面和语义层面均表现出好的质量。进一步的研究工作包括处理实例匹配的不确定性、结合知识库推理方法、扩展方法为关于属性的复杂匹配、探讨复杂匹配的应用以及研究复杂匹配不一致性问题。
其他文献
该文简要介绍了双波段红外火焰探测系统的主要设计依据,阐述了其基本工作原理,介绍了系统中与软件设计相关的硬件组成,尤其是双波段红外火焰探测器的硬件设计,并给出了控制器
关于安全博弈的研究近年来广受重视,许多基于安全博弈论的系统已在现实世界中得到了成功应用。在该研究的理论框架中,博弈双方为安保部门和不法分子。其中安保部门首先确定一种
本文的工作是为北京大学软件工程研究所正在研发的基于Erlang OTP(OpenTelecom Platform)的虚拟计算平台UniAS提供处理大文件数据的能力,设计并实现了大文件并发处理模块。本
随着网络规模的扩大和复杂性的增加,人们对集成系统和网络管理体系结构的要求越来越高.如何进行有效的网络管理,保证网络的良好运行已成为一个迫切需要解决的问题.目前的大多
三维编织技术是国外八十年代初发展起来的一种新型纺织技术.主要的两种编织方法:二步法和四步法.以往的三维编织多采用四步法进行,在这方面的织物结构研究和计算机辅助设计已
所谓“眼见为实”,通过观察一幅图像,人们可以对事物的外观信息和由其呈现出的事物性质得以直观和真切地把握。由于量子计算机的性能较之经典计算机有着本质的飞跃,以及量子计算
当前,回答集程序设计已经成为人工智能领域知识表示和推理的重要工具。它是一种描述性的问题解决框架,非常适用于对涉及常识推理的问题进行建模,并自动求解。动态逻辑程序是回答
由于互联网技术的快速发展,我们可以通过它来发布和获取各式各样的信息。所以,为了充分且有效地表示网络上丰富的数据,W3C组织提出了将XML作为互联网上信息共享的格式。XML由
近年来,随着数字化技术、信息化技术以及多媒体技术的迅速发展,有大量的数字图像、遥感图像、广告图像、路标指示牌以及微博(web)中的图像充斥着我们的生活。而这些图像中包
人体检测的目的是识别出图像中的人体并给出其定位信息。人体检测技术在运动分析、智能监控以及驾驶辅助系统等领域有着广泛的应用,是物体检测的一个研究热点。R-CNN(Regions