论文部分内容阅读
随着互联网技术和人工智能技术飞速发展,知识图谱作为人工智能领域的重要基础技术得到了各大企业及研究机构的密切关注。传统网络化表示的知识图谱一般将实体表示为网络结构中的节点,关系表示为节点之间的边。这类表示方法存在着计算效率低,可扩展性差等问题,并且随着知识图谱的规模飞速增长,这些问题愈发严峻。为了解决这些问题,将知识图谱中的实体和关系嵌入到低维语义向量空间中的知识表示学习应运而生。以Trans E模型为代表的知识表示学习算法不仅在知识图谱推理、语义相似度计算上展现出了优秀的性能,显著提升了知识融合、补全、推理的准确性,并且更容易被应用在其他领域之中。基于知识图谱结构信息的知识表示学习模型不能解决复杂关系建模和数据稀疏所带来的语义表示能力低下等问题。事实上,知识图谱本身结构外的海量文本也蕴含着大量知识信息,这些信息可有效扩充知识图谱结构信息并且减少数据稀疏所造成的影响。所以怎么有效利用这些文本信息提升知识表示学习的性能成为了当今一个热门的研究问题。另一方面,知识表示学习在智能问答、推荐系统等领域的成功应用表明知识图谱结构信息可以作为其他领域模型的先验知识约束和扩充。但知识图谱在许多传统机器学习领域如CTR预估任务(Click Through Rate Prediction Task)仍未被有效利用,发挥其应用价值。因此将知识图谱结构信息更有效的引入其他领域也受到研究者们的密切关注。本文从以上两个问题出发进行了深入研究,主要工作及成果有以下几点:1.本文调研了近期融合外源文本信息的知识表示学习模型,并针对这些模型存在的问题提出了一种融合实体主题信息的知识表示学习模型ETRL(Entity Topic based Representation Learning)。该模型通过主题模型学习知识图谱中实体描述主题信息,与知识图谱本身结构信息融合。实验表明,通过引入实体主题信息,ETRL模型可有效缓解复杂关系建模问题,扩充实体和关系的语义。该模型也在知识图谱补全任务上获得了良好的效果。2.本文将知识表示学习应用在被数据稀疏和高阶交叉特征学习性能问题所影响的CTR预估任务中并提出了KSDeep FM模型(Knowledge Structure based Deep Factorization Machines)。该模型联合Trans R模型与Deep FM模型,通过远程监督的方式融合知识图谱结构信息和高阶交叉特征信息。实验表明,知识图谱的结构化信息可以在一定程度上缓解上述问题,提升CTR预估模型的表现。3.本文设计实现了一个知识图谱管理系统KGPlus(Knowledge Graph Plus System)。该系统可以存储网络化表示的知识图谱数据同时实现基于知识表示学习的知识图谱辅助清洗、补全、实体联想查询和三元组缺失反馈等功能。该系统通过引入知识表示学习辅助传统知识图谱管理,在一定程度上降低了人工清洗补全知识图谱数据的成本,具有很强的应用价值。