论文部分内容阅读
本体是实现语义网的关键组成部分,是对领域知识的一种形式化表达。它用来标注语义网络上的网页、数据等资源,目的在于支持应用系统的语义集成和互操作。近年来,本体的数量快速增长,特别是链接开放数据的繁荣发展,构建了大量本体和语义链接数据,覆盖了医学、艺术、地理等多种领域,进一步推动了语义网技术的发展。其中包含了海量RDF三元组,且数量在不断增长。然而由于构建本体的目的不同,描述交叉领域甚至是相同领域的本体在语法、结构和语义层面存在很大程度的异构性,这阻碍了本体所标注信息的互操作。 针对本体异构问题,本体匹配通过建立不同本体间实体(类、属性或实例)的对应关系来支持信息的转换和集成。大多数的本体匹配方法和系统局限于发现单个实体之间的等价或者包含关系。然而,这种形式的简单匹配并不总能够正确地反映待匹配实体之间的关系。较少的研究关注于复杂匹配,即源本体中的一个类或属性与目标本体中多个类和属性的组合匹配,这主要是由于复杂匹配的发现更加困难。 现有的复杂本体匹配方法主要分为基于匹配模式的方法和基于机器学习的方法,前者需要人工制定启发式规则而后者易陷入局部最优解。此外现有的复杂匹配方法均未考虑本体数据不完整性和噪音对匹配结果造成的影响。针对这些问题,本文以复杂本体匹配为目标展开研究,主要完成如下工作: (1)提出了一种基于路径特征的复杂本体匹配学习方法。方法的关键是引入了路径特征来刻画本体中实例具有的性质。根据本体中的实例声明构建表示实例类信息和实例属性关系的实例图,然后从实体图中抽取路径并泛化得到路径特征。在此基础上使用一阶归纳学习器来组合路径特征得到复杂匹配结果。与以往的基于一阶归纳学习器的复杂匹配方法相比,匹配的学习不以单个实体而以路径特征为基本单位,在链接开放数据集上的实验结果表明提出的方法能够自动学习到本体间的复杂匹配且能够有效缓解局部最优问题。与基于模式的方法相比,提出的方法不需要人工定义启发式规则。 (2)提出了一种复杂本体匹配的联合学习方法。由于本体数据的不完整性和噪音会造成匹配结果出现非等价现象,因此方法利用类的相似性来修复基于路径特征方法得到的非等价匹配。方法的关键在于将相似的类具有相似的匹配这一假设引入到复杂匹配的学习过程中,依靠不同类的相似性关系来连接不同类的复杂匹配学习任务,达到相互促进的目的。通过综合评价复杂匹配在实例层面和语义层面的质量,将复杂匹配问题转化为带约束的二次优化问题。在链接开放数据集上的实验结果表明该方法能够有效地修复由数据不完整和数据噪音所造成的非等价匹配。 复杂本体匹配的实现相较于简单匹配更为困难。针对现有方法存在的问题,本文提出了两种实现方法。基于路径特征方法中的路径特征涵盖了大多数的匹配模式;同时利用路径特征获取复杂匹配降低了一阶归纳学习器的搜索空间,不易陷入局部最优解。针对本体数据不完整性和噪音造成的非等价匹配,我们首次提出复杂匹配的联合学习方法对其进行修复。方法利用了本体中的结构、实例、类相似性等信息,使得匹配结果在实例层面和语义层面均表现出好的质量。进一步的研究工作包括处理实例匹配的不确定性、结合知识库推理方法、扩展方法为关于属性的复杂匹配、探讨复杂匹配的应用以及研究复杂匹配不一致性问题。