论文部分内容阅读
本体对语义Web的发展至关重要。随着语义Web的发展,出现了越来越多的本体。据语义Web搜索引擎Falcons的统计,可以在线获取到的本体已经多达4千个。由于Web具有分散性的特点,同一个领域中出现了多个不同或相似的本体,本体间的异构问题突显出来。对于使用异构本体的互联网应用程序而言,本体匹配通过发现本体间的映射关系为它们之间的交互建立了一种互操作性。现有的本体匹配工作着力于发现本体间存在的一对一简单映射关系,用于分布式推理、实例迁移、查询重写等应用。本文针对本体映射的研究现状,一方面基于简单映射对语义Web上的本体作全局的匹配性分析,观察本体异构现象的整体情况;另一方面提出一种在本体间发现一对多复杂映射的方法,以获取精度高且语义清晰的映射关系。
本文对收集到的4千多个本体实施了大规模的成对匹配,创建出3百万个术语映射。以这些映射为边,以映射涉及到的术语为顶点构造出术语映射图。进一步基于术语映射导出本体映射图。分析了两个映射图的宏观属性,包括度分布、连通性和可达性,发现它们具有超文本Web的一些特征,例如无尺度的性质和小世界现象。最后在本体映射图的基础上建立付费域名映射图,观察不同本体发布者之间的关系,发现DBpedia.org和umbc.edu是两个最活跃的发布社区。
本文也提出了一种发现本体间的复杂语义映射的新方法。该方法将发现语义映射问题转化成一个学习规则的任务,基于归纳逻辑编程生成Horn规则形式的映射。特别地,该方法利用本体间的共指对象来构造用于发现和验证复杂语义映射的变量绑定,同时对于本体中的类和属性采用不同的处理策略以提高学习效果。实验结果展示了该方法的有效性。