论文部分内容阅读
随着语义Web的发展,已经有大量语义Web数据存在。然而许多数据缺少结构和丰富的知识表示,本体的不完备性比较严重。本体学习能够降低本体的不完备性,是语义Web能否成功的关键之一。现有本体学习研究的不足在于:(1)已有的本体学习方法主要采用归纳逻辑程序设计,很少采用统计关系学习方法;(2)已有的本体学习的数据源以自由文本居多,很少从语义Web数据中进行学习;(3)常用的来自于信息抽取领域的本体学习评价标准对黄金标准本体过于敏感。 针对这些问题,本文主要进行以下研究: 1)首次结合描述逻辑ALC与贝叶斯网络,提出一种统计关系模型BelNet+(An Extension ofBayesian description logic Network)。针对使用贝叶斯网络表示BelNet+对网络结构为有向无环的限制,提出了一种链接方向赋值算法。同时实现了利用极大似然法对BelNet+进行参数估计的方法,并且对查询贝叶斯包含/不交公理(对应于描述逻辑中的包含/不交公理)进行了深入探究,提出并验证了查询贝叶斯包含/不交公理成立概率的方法。 2)提出基于BelNet+进行本体学习的方法。由于本体的模式层的公理可能不完备,其对应的BelNet+所定义的贝叶斯网络有可能无法支持有效的推理,由此提出对贝叶斯网络进行结构学习,利用学习得到的贝叶斯网络上进行大量的贝叶斯包含/不交公理的概率查询,从而能够实现公理学习的目的。 3)针对现在本体学习评价方法的不足,提出原有混淆矩阵的扩展,并相应地提出度量函数。同时在多种数据集上通过实验比对所提出的本体学习方法与已有本体学习方法,给出了详尽的相关分析,并且通过使用较大规模的语义Web数据集,充分验证了所提出的噪音探测方法的性能的优越性。 4)提出了一个新颖的利用不交公理学习探测语义Web数据中噪音的方法。由不交公理的语义,通过利用数据集隐藏的不相交概念得到相互冲突的个体类型声明,使得可以再进一步通过分类算法对冲突的个体类型声明进行分类,从而得到数据中的噪音。