论文部分内容阅读
大规模的知识图谱用于存储现实世界中实体和实体之间关系的复杂结构信息。知识图谱最初目的是用于改进搜索质量、提升搜索效率,广泛应用在智能搜索、智能问答等领域。知识图谱中包含大量由实体和实体之间的关系构成的事实三元组,但是目前在大规模的知识图谱中由于数据的稀疏性,知识是不完备的,有许多隐含的知识还没有被发掘出来,需要进行知识图谱的补全任务。最初知识图谱补全是利用基于逻辑规则的方法进行知识推理,采用一阶Horn子句或一阶逻辑的方式预测实体之间的关系进行知识图谱的补全。但是基于逻辑规则的方法中推理规则需要人为进行编写,效率较低。最常用的知识图谱补全方法是基于翻译转换的方法,基于翻译转换方法的思想是将知识图谱中的实体和实体之间的关系嵌入到一个连续低维的向量空间,保留了原图中一定的关系属性,通过学习实体和关系的向量化表示来完成知识图谱的补全。基于翻译转化的方法计算简单且容易操作,特别是在稀疏图中表现出很好的性能。但是基于翻译转化的方法依靠纯粹的数据驱动,预测结果的准确率受到一定的限制。还有一类比较常用的补全算法是基于关系路径的方法,这类方法根据知识图谱有向图的特性利用随机游走的方式计算实体之间关系存在的概率进行知识图谱的补全。基于关系路径的方法能很好的解释预测的结果,相比基于翻译转化的方法有更优秀的性能。但是这类方法在数据稀疏的知识图谱上无法表现出良好的性能,而且提取关系路径计算消耗较大。在本文中,我们提出一种新的知识图谱补全算法。首先,我们的方法充分利用知识图谱中实体的文本描述信息,将文本中词语向量组合后对文本进行向量表示用以代表实体。其次,我们的方法结合知识图谱中实体之间的关系路径信息,用知识图谱中的路径信息加强对实体之间关系的表示。我们结合文本描述信息和关系路径信息推导出知识图谱三元组的相似性度量函数,算法采用基于间距的损失函数对数据集中正例和负例数据进行分割再进行优化计算,使用批量随机梯度下降法训练算法得出实体和关系的向量表示。最后,我们以实体和关系的向量表示来完成知识的语义计算,完成知识图谱的补全任务。我们的方法充分利用了知识图谱的特征,结合知识图谱中大量实体之间的关系路径信息和知识图谱中对实体的文本描述信息,利用这些有价值的信息将实体和关系嵌入连续低维的向量空间,进行实体和关系的向量表达从而完成知识图谱的补全任务。最后,我们的算法在标准实验数据集上通过实体预测、关系预测等评测标准上进行实验结果对比分析,证明了我们的算法的可行性和有效性。