论文部分内容阅读
随着互联网的迅猛发展和Web2.0的普及,数据分析、知识发现等技术面临着新的挑战,知识图谱(KG,Knowledge Graph)的出现为海量数据提供了新的组织方式。KG的补全,即是补全KG中缺失的实体以及实体间缺失的关系,是目前KG领域研究的热点之一,也是海量数据背景下信息检索与服务的重要基础。同时,用户生成数据(UGD,User-Generated Data)(用户浏览网页、商品等)的快速产生,UGD中体现出来的实体间的关联关系与KG所描述知识可能不相同,且有益补充KG。目前通过KG路径的知识推理方法来补全KG,如路径排列算法等,由于存在稀疏或者错误实体关系、且连通性差问题而导致实体间关系抽取不准确,从而得到不完整的KG。因此本文从UGD出发,通过互信息对不确定知识间关联关系的模型构建,得到具有关联关系的实体节点,进而补全KG中实体间缺失的关系,得到更为完整和真实的知识图谱,为个性化推荐和关联查询提供依据。具体而言,本文的主要工作如下:(1)UGD中包含了大量的实体和实体之间的关系,这能很好的弥补KG中缺少的实体关系,针对UGD中大量的实体节点,我们基于Spark分布式计算框架,采用互信息的方法来定量计算实体节点之间的关联度,并根据实体节点之间相互影响的大小来确定它们之间的方向,从而构建实体节点关联模型,再根据“实体-关联值-实体”三元组的形式构建实体关联图(EAG,Entity Association Graph)。(2)针对EAG,除了直接关联的实体节点,还可能存在潜在关联的实体节点,因此我们采用一种关联影响叠加的思想来计算实体节点之间的潜在关联关系,并给出了相应的计算方法。同时,GraphX提供了图的邻居节点的计算方法,方便了本文对图的计算。(3)本文采用淘宝网用户的真实行为记录作为实验数据集,实验结果验证了本文提出方法的高效性和有效性。基于本文提出的方法,设计并实现了“基于互信息的知识图谱实体关联关系建模与补全平台”的原型系统,展示了KG补全的具体过程。