论文部分内容阅读
随着人工智能逐渐迈向认知智能,知识图谱已经成为当今大数据时代一种重要的知识表示和组织形式,被广泛应用在智能搜索、问答系统以及个性化推荐等领域,为它们知识赋能。知识图谱由实体和关系组成,实体表示客观世界的事物,关系表示实体之间的相互联系。传统的知识图谱使用符号化的形式表示,将实体和关系使用唯一符号进行表示。然而这种符号主义无法应对大规模知识图谱的需求,不能表达实体之间潜在的语义关联,同时阻碍了知识图谱的应用。随着知识图谱技术的不断发展,知识图谱分布式表示被提出并用于解决上述问题。知识图谱分布式表示是将实体和关系分别映射到低维连续的向量空间,使用对应的向量表示它们的语义信息。知识图谱分布式表示高效便捷的优点,使得分布式表示的学习方法和应用成为现阶段知识图谱领域的热门研究课题。然而,知识图谱普遍存在的实体数据稀疏性问题,导致现有知识图谱分布式表示学习技术很难习得高质量的分布式表示。同时,由于知识图谱的结构化信息和推荐系统中用户物品交互信息之间的异质性,使得将知识图谱分布式表示直接应用到个性化推荐领域变得十分困难。本文在深入调研和分析现有解决稀疏性问题的知识图谱分布式表示学习方法和结合知识图谱的推荐算法相关研究之后,在知识图谱分布式表示学习方法和应用领域开展了以下三个创新性研究工作:首先,本文研究了如何将实体的类别信息结合到已有知识图谱分布式表示学习方法中来缓解数据稀疏的问题,从而提升分布式表示的性能。类别信息除了用来约束属于同一类别的实体,它还具有层次化结构和关系的类别约束这两个重要的特性。为了建模类别层次化结构的反对称性和传递性,以及利用关系的类别约束信息,我们提出了一种全新的结合层次化类别信息的分布式表示学习方法。首先我们将类别映射到不同的向量空间,然后在类别向量空间上使用Order Embedding偏序关系建模类别的层次化结构,接着将实体向量通过线性变换映射到类别向量空间保证它与所属类别满足偏序关系。对于关系的类别约束,将关系对应的头(尾)实体以同样的方式映射到类别向量空间,并保证它与约束关系的类别满足偏序关系。另外,当关系的类别约束信息未知时我们的方法同样可以利用该信息指导分布式表示的学习。基于四个基准数据集,在多个实验任务上进行大量的实验结果验证了我们方法的优越性。其次,本文研究了如何将软规则的逻辑信息结合到已有知识图谱分布式表示学习方法来提升分布式表示的性能。软规则是从知识图谱中自动抽取的带有置信度的逻辑规则,考虑到它获取方便且支持不确定性,研究人员将软规则结合到分布式表示学习方法中。然而现有研究工作或者不支持较为复杂的复合规则,或者将软规则作为正则项约束规则推理出的事实,但是这种建模软规则的方法并不能很好地表达规则的逻辑语义。另外,这些工作同时忽略了规则的前向推理能够进一步得到更多有用的信息。因此,我们设计了一个联合训练事实和软规则的学习算法,对于软规则的建模,使用模糊逻辑理论建模前向推理得到的实例化规则,软规则则由它的所有有效实例化规则进行表示。此外,为了支持海量规则和大规模知识图谱进行高效地前向推理,我们设计实现了一个基于分布式内存计算平台Spark的分布式规则引擎系统。在两个大规模知识图谱上的实验表明我们提出的联合训练算法的优越性以及使用前向推理的合理性。最后,本文研究了将知识图谱分布式表示应用到推荐系统上的问题。推荐系统普遍存在用户物品交互数据稀疏、冷启动以及推荐结果可解释性差的问题,通过引入知识图谱可以帮助缓解这些问题,同时得到更好的个性化推荐结果。现有相关研究中基于传播的方法因为其既使用了实体和关系的分布式表示信息又利用了知识图谱结构的关联性达到了目前最优的效果,但是该类方法或者没有考虑不同用户对知识图谱的实体和关系的偏好不同,或者只简单地考虑不同用户对单个关系的偏好,因此本文提出一个基于细粒度知识图谱感知注意力机制的个性化推荐算法。在传播与物品有高阶关联性的实体向量的过程中,我们设计了细粒度注意力机制为这些实体向量生成不同用户交互下的权重,该细粒度注意力机制依次考虑了用户对关系路径的偏好和用户对实体的偏好。在四个真实推荐场景下的实验结果表明了我们方法的有效性和优越性。