论文部分内容阅读
近年来,随着语义万维网数据的不断激增,以图结构作为表示框架的知识图谱成为了当前学术界、工业界的研究热点。知识图谱包含了丰富的结构化信息,存储事实在千万级别以上,覆盖了许多真实的实体与关系,为许多人工智能技术提供了可靠的信息来源和底层支撑,极大的智能化了许多现实应用。然而与现实世界包含的无穷尽的知识相比,知识图谱的完善程度仍然是远远不够的。利用自然语言处理的相关技术,从大量的非结构化和半结构化数据中抽取结构化信息,实现对知识图谱的扩充是行之有效的方法。但是之前的抽取过程需要大量的专家知识设定相关的启发式规则,并且需要大量的人为参与来保证抽取信息质量。近年来,随着人工智能领域特别是机器学习方向的蓬勃发展,研究者们期望利用机器学习算法在现有的存贮事实基础上,进行知识的推理与融合,完成机器自动化扩展知识图谱规模的目标。大规模知识图谱完善任务是自然语言处理领域非常热门的研究方向,同时也是本文的研究目标。本文详细介绍了基于统计关系学习的两大类知识图谱完善算法:基于图特征的路径排序算法;基于隐式特征的知识表示学习算法。路径排序算法利用随机游走的特性可以很好筛选出公共关系路径作为显式特征;知识表示学习在表示学习框架的基础上更加适应知识图谱的内含语义和规模需求。在两者的基础之上,本文提出了一种新颖的关系路径嵌入模型:将包含丰富语义信息的关系路径整合到知识表示学习模型中,通过利用关系与可信赖关系路径的语义相似性,将已有的关系投影和关系约束扩展到新颖的路径投影和路径约束。路径投影使得实体可以同时在不同类型的隐式空间内进行低维的表示学习;路径约束增加了模型在隐式空间里对相似嵌入信息的决策能力。两种新颖的创新可以很轻松的整合到其他的知识表示学习的框架中,获得更优的算法性能。我们在三种公共数据集上对我们提出的关系路径嵌入模型进行了两种标准的任务评测:链路预测和三元组分类。实验结果表明我们的模型要显著优于基准的知识表示学习模型,同时也表明我们的模型可以很好的捕获到关系路径的语义信息。