论文部分内容阅读
跨语种的实体匹配被定义为找到不同语种内描述同一实体(对象)的实体连接。跨语种的实体匹配不仅扩展了不同语种的知识共享,更是对现今的跨语种信息检索和机器翻译等重要领域有直接贡献,已经成为关系数据的核心研究内容。在实体匹配问题中面临的最大的两个挑战是复杂性处理和不确定性问题,在跨语种的环境下尤为明显。如何能够更好的在统一的模型下同时处理这两个问题,不仅是实体匹配问题,也是整个数据挖掘领域的核心问题之一。Richardson和Domingos在06年首次提出的马尔科夫逻辑网络模型恰好迎合了这一需求。马尔科夫逻辑网络是将一阶谓词逻辑和概率图模型相结合,以获取关系数据的似然模型,是现今学术界普遍公认的一种简单而且较为完美地结合了一阶谓词逻辑和概率图模型的逻辑结构表达方式。它具有重要的研究价值和广阔的应用前景,已成为人工智能、机器学习、数据挖掘等领域的研究热点。本文分析了基于马尔科夫逻辑网络的跨语种实体匹配模型。在原有的一阶谓词逻辑体系中引入了等价谓词,从而形式化表述了语义等价性,使得不同形式的字符序列可表示同一个实体。我们将马尔科夫逻辑网络应用到较为实际的两个应用中,成功解决了跨语种实体匹配中对于跨语言知识依赖性强的问题以及名字翻译中的歧名问题,在一定程度上提高了使用传统方法所得到的精度。