论文部分内容阅读
本体是领域共享概念模型明确的形式化规范说明,使得计算机对知识能够共享、重用和互操作,它在语义Web、知识数据工程和语义物联网等领域有着广泛的应用。然而,表示相似(或相同)领域共享概念模型的大部分本体由不同背景的知识工程师使用其各自术语构造和维护,这种本体之间的异构性阻碍了应用系统对知识的共享、重用和互操作。本体集成则是解决本体异构问题的方法之一,它的主要目的是建立来自不同数据源的描述相似(或相同)领域的两个本体中实体之间的匹配,并通过这些被建立的匹配构建集成本体。本文对本体的词法分析、语义分析以及一致性集成本体的构造等本体集成研究中的关键问题进行了深入探讨,主要研究成果如下:(一)基于实体标记分析本体的词法信息。该方法首先使用WordNet里特殊的词法关系,扩展单词的合适词义到一组词义,然后通过组合单词的多个词义及本体里的语义元素(比如(?)、(?)和(?))形式化的定义实体标记。单词合适词义的扩展表示本体里单词在目前上下文中可能的意思,克服了仅发现单词合适词义的缺点,这有助于发现潜在的匹配。通过实验数据的分析,实体标记公以降低系统3%的查准率为代价提高了系统37%的查全率。(二)提出一种语义的循环过滤方法删除候选匹配中的冗余匹配。该方法首先制定过滤规则,然后提出过滤算法,最后形式化定义过滤的充分性条件,并证明该循环过程可终止。通过实验数据的分析,语义循环过滤过程提高了系统22%的F测度值。(三)基于苗述逻辑中最小公有包含(the least common subsumer)和最明确概念(he most specific concept)的主要思想,形式化的定义实体描述的最近包含(the closest subsumer)。基于最近包含,可推理出一组有意义的补充匹配。这些匹配经常出现在标准匹配结果中,但较少出现在其它解决方案的匹配结果中。实验数据的分析表明最近包含的定义加强了系统的查准率和查全率(四)扩展结构包含推理算法分析本体的语义信息。该方法首先剖析组成本体的各种构造器和公理,然后基于实体标记构建实体的范式,使木体里暗含的语义信息和词法信息能够容易读出,最后通过调节实体间被允许的差异程度及放大和缩小实体对应的集合,比较两个实体范式间的句法结构,推理出实体间的匹配。通过实验数据的分析,该语义信息的分析方法提高了系统的查准率和查全率。(五)利用微子图形式化地定义本体集成问题,并提出构建集成本体的算法。该算法在不改变异构本体语义的前提下使得集成本体采用最多的匹配,所采用的匹配仅起到连接两个异构本体的作用,反映了不同异构本体实体图间的搭桥。论文也证明了该算法所构建的集成本体是一致的。