论文部分内容阅读
W.N.Borst在1997年定义本体是共享的概念模型的形式化的规范说明。它用来构建知识库,可以方便知识共享。随着语义网的发展,人们构建了很多本体。例如借助维基百科构建的DBpedia、用在商业上的freebase.com和特定领域的知识库(音乐本体和医学本体)。然而,由于人们在构建本体时通常是针对某一应用的,导致了本体是很不同的,例如使用不同的名称命名实体。构建的不同使得即便是相同领域的本体也有很大的差异(异构),造成共享知识时会有语义上的误解。然而,随着语义网的发展,使得将相同领域的本体连接起来进而实现知识共享的目标越来越重要。解决这一问题的有效方法是本体匹配。 本体匹配是协调异构本体之间的语义,实现它们之间的互操作。具体而言,本体匹配是找到两个异构本体之间的实体(实例、类和属性)对之间的对应(等价、不相交、相交、包含和包含于)。基本的做法是给定两个输入的本体,和初始的匹配对,通过人工、半自动或者自动的方法找到实体之间的对应关系。虽然本体匹配研究已经10多年了,过去多是用规则的方法和机器学习的方法,很少用规则(逻辑)和概率相结合的方法研究本体匹配。本文在尝试用概率Problog程序自动地做本体匹配,本文的主要的工作有以下: 1:提出来用概率Prolog程序做本体匹配。概率Prolog程序是概率逻辑程序的一种语言,将概率和逻辑相结合可以表达不确定的复杂关系结构。这和只基于规则、概率的方法的不同之处在于同时考虑了规则和概率。在本体匹配的过程中,通过构建不确定的规则有助于表达匹配对之间的潜在影响关系。另外,通过规则可以克服基于概率的机器学习算法的数据之间的独立同分布的情况。我们将其用于做本体匹配:首先通过相似度度量方法得到两对本体实体对之间的初始相似度,其次通过构建用于表达不同候选匹配对之间的影响的启发式规则,再次将初始相似度和启发式规则转化成概率Prolog程序,进而通过推理和过滤得到最后的匹配对。另外,提出可以将概率Prolog程序转化成贝叶斯网中的Noisy-Or模型,可以加快推理的速度。最后通过在不同数据集上做实验,和与我们方法最接近的马尔科夫逻辑网相比较,得出我们得到我们的方法可以得到较高的召回率;参加OAEI比赛的系统做比较,在阈值为0.7的时候,F值排在第四名。 2:提出学习概率Prolog的参数。虽然没有直接可以用来学习概率Prolog的方法,但是我们发现概率Prolog可以在多项式时间内转化成标注析取的逻辑程序,从而可以借助学习标注析取的逻辑程序的参数得到概率Prolog的参数。这里我们避免了手工设置参数的主观性。同时我们考虑到马尔科夫逻辑网的参数也可以学习,因此,我们借助于Alchemy系统,学习了马尔科夫逻辑网做本体匹配的参数。除此之外,我们也讨论了在不同的参数对本体匹配结果的影响是不同的。