论文部分内容阅读
概率图模型能很好处理不确定性,一阶逻辑可以简洁地表示知识,将概率与逻辑整合在同一个表示之中一直是人工智能领域的一个长期目标。Markov逻辑网是公式附加权值的一阶逻辑知识库,且可作为构建Markov网的模板。
传统的统计方法是基于数据间的独立同分布,并假设这些数据具有相同的结构。但是在现实的Web世界中,存在着大量的半结构化数据,数据本身不但具有复杂的内部结构,而且数据外部通过超链接、引用等联系起来构成关系数据集合。传统的统计方法忽略了这些数据间的关系结构,而这些“关系”却含有更多深层次的语义信息。
统计关系学习就是针对“关系”的学习方法,集一阶逻辑/关系表示、不确定性处理和机器学习/数据挖掘于一体,其目的是挖掘关系数据中的似然模型。Markov逻辑网是一种将Markov网与一阶逻辑相结合的统计关系学习模型,已经成为人工智能领域的一个重要研究热点,在互联网、社会网、计算生物学、普适计算等领域应用广泛。
本文重点研究了Markov逻辑网在Web领域的相关应用。主要工作归纳如下:
1. 研究了Markov逻辑网相关理论。
本文首先介绍了Markov逻辑网的理论基础,即概率图模型、Markov随机场/Markov网和一阶逻辑。然后研究了Markov逻辑网的概念与特性,包括闭Markov逻辑网、三大基本假设和Markov逻辑网的知识库。最后讨论了Markov逻辑网的权值学习算法和推理算法。
2. 将Markov逻辑网应用到文本分类中在统计关系学习中,可以通过关系(逻辑)来很好的表示知识,故文本分类问题的Markov逻辑表示也十分的简洁。实验结合了判别式训练的学习算法,MC-SAT、吉布斯抽样和模拟退火等推理算法,结果表明基于Markov逻辑网的分类方法能够取得比传统KNN分类算法更好的效果。
3. 将Markov逻辑网应用到重复数据删除中本文给出了如何用少量的谓词公式来描述重复数据删除问题中不同方面的本质特征,并将Markov逻辑表示的各方面组合起来形成各种模型。实验采用了判别式训练的学习算法和MC-SAT推理算法,结果表明基于Markov逻辑网的重复数据删除方法涵盖了经典的Fellegi-Sunter模型,其效果明显优于基于聚类算法和基于相似度计算的方法,且可以通过Markov逻辑网构建此类问题的统一框架。
4. 总结了Markov逻辑网在Web领域的其他潜在应用针对信息抽取问题,本文仅从如何检测域边界的角度出发,构建了Markov逻辑网,虽然不太完善,但其效果略优于传统的隐马模型。而对于超文本分类、信息检索,则给出了较为简单的模型构建方法。
综上所述,我们可以得出如下结论:Markov逻辑网是一种功能强大的统计关系学习方法,不仅能够灵活地将大量领域知识采用模块化的形式引入到Markov网中,还可以很好的处理不确定性、允许不完整和矛盾的知识,其应用领域非常广泛。