论文部分内容阅读
随着互联网的快速发展,数据量爆炸性的增加,人们对搜索的精准性和智能化的需求日益增长,知识图谱的兴起拉开了智能信息检索从字符串匹配跃迁至智能理解的序幕,可以实现深度挖掘和精准回答,是智能化的核心技术之一。然而现有的知识图谱仍然面临严重的知识缺失问题,知识表示可以促进知识获取、融合、推理,完成知识图谱补全。传统基于离散符号的知识表示存在复杂度高、不易拓展等问题,基于向量空间的知识表示是解决这类问题的新趋势。然而大多数知识表示学习方法得到的向量仅包含知识图谱三元组结构的语义信息,没有融合实体描述、类别等提供关于实体的语义信息,在大规模稀疏知识图谱上区分能力较差。因此,如何实现嵌入多源信息的知识表示学习方法以及通过知识表示向量之间的计算进行推理,挖掘新的知识是本文的主要研究内容。针对知识表示向量无法包含实体描述全部语义信息的问题,本文基于TRANS*表示学习模型和DOC2VEC、LSTM等深度学习模型设计了一个新的嵌入实体描述的知识表示学习算法RLCD。最早提出的嵌入实体描述的知识表示学习方法DKRL的输入仅仅是知识图谱三元组和实体描述中部分高频词,所得到的知识表示向量并没有包含实体描述的全部语义信息。本文提出的RLCD算法采用文档向量化表示模型,将实体描述直接作为输入最小化信息损失,并加入了语序信息,得到的知识表示向量不仅包含知识图谱三元组语义信息也包含实体描述的全部语义信息。最后实验结果表明,在FREEBASE百科数据集和PHONECARD数据集上与DKRL算法相比,本文算法的链接预测效果更好、运行所需时间更少,更有利于后续的知识图谱补全与知识推理。面对严重的知识缺失问题,如何高效地基于已有的知识图谱进行知识推理,从而挖掘出新的知识是当今的研究难点。传统知识推理方法基于谓词逻辑和关联规则挖掘的推理策略,存在覆盖率低、推理速度慢、可拓展性差、无法表示不确定的知识等问题。基于分布式表示的知识推理方法通过知识表示向量之间更高效的计算代替图的遍历和搜索进行知识推理从而挖掘出新的知识。然而大多数知识表示学习方法都是基于单个三元组结构学习出知识表示向量,从而无法实现复杂关系推理。本文将通过知识表示学习技术和神经网络技术训练出包含关系路径信息和实体描述信息的分布式知识表示向量,从而挖掘出实体之间的关系路径所隐含的间接关系,实现复杂关系的推理。