论文部分内容阅读
随着计算机和信息技术全面融入社会生活,信息的发布、传播、获取途径变得多种多样,世界上充斥着比以往更多的信息,使得大数据技术和机器学习技术快速发展,也为开放科学创造了良好条件。面对开放科学环境中共享的海量科研信息,科研人员的需求也从广泛获取转为个性选择。为了向研究员提供高质量检索结果,以及精准、个性化的智能知识服务,各信息服务机构将知识图谱技术应用于大规模、异质多元、组织结构松散的科技大数据,构建学术知识图谱,利用机器学习技术挖掘数据价值。在构建知识图谱和提供知识服务过程中面临的问题有:如何对采集到的数据实现实体对齐和实体消歧从而建立高质量知识图谱、如何向用户推荐其感兴趣的信息来提供知识服务等。解决这些应用问题的关键技术之一就是实体相似度计算。
本文以智能知识服务为应用背景,以学术知识图谱中的学者相似度问题为例,探索采用新兴网络表示学习方法(Graph2Vec模型)改进现有的实体相似度算法,旨在解决学术知识图谱中的实体相似度计算中存在的问题。本文主要完成(1)基于Graph2Vec模型的实体表示模型设计。选取学者特征构建学者图谱,利用Graph2Vec模型得到每位学者图谱的分布式向量;(2)选择相似度算法。选择向量相似度指标来计算向量相似度,从而比较学者相似度;(3)完成实验设计与实施。从科技知识图谱中采集学者图谱数据,实现学者相似度比较,验证基于Graph2Vec的实体相似度模型的有效性。无论图谱间节点个数相同与否、图谱间是否存在包含关系,都能识别出学者图谱间的相似性。本模型能够进一步改进学者对齐和消歧领域、以及推荐领域中的学者相似度计算方面存在的不足,并将本模型与Doc2Vec方法进行了对比,证明了本模型有更好的效果。
本文根据现有知识图谱中的实体相似度研究的不足,首次将Graph2Vec模型应用于实体相似度计算,提出了基于Graph2Vec模型的实体相似度模型。该方法是对传统结构相似性函数、图核函数和图的子结构表示学习方法应用在实体相似度计算中的一个有效补充与完善,是对已有研究方法的改进和提升,未来也具有很高的研究价值和潜力。
本文以智能知识服务为应用背景,以学术知识图谱中的学者相似度问题为例,探索采用新兴网络表示学习方法(Graph2Vec模型)改进现有的实体相似度算法,旨在解决学术知识图谱中的实体相似度计算中存在的问题。本文主要完成(1)基于Graph2Vec模型的实体表示模型设计。选取学者特征构建学者图谱,利用Graph2Vec模型得到每位学者图谱的分布式向量;(2)选择相似度算法。选择向量相似度指标来计算向量相似度,从而比较学者相似度;(3)完成实验设计与实施。从科技知识图谱中采集学者图谱数据,实现学者相似度比较,验证基于Graph2Vec的实体相似度模型的有效性。无论图谱间节点个数相同与否、图谱间是否存在包含关系,都能识别出学者图谱间的相似性。本模型能够进一步改进学者对齐和消歧领域、以及推荐领域中的学者相似度计算方面存在的不足,并将本模型与Doc2Vec方法进行了对比,证明了本模型有更好的效果。
本文根据现有知识图谱中的实体相似度研究的不足,首次将Graph2Vec模型应用于实体相似度计算,提出了基于Graph2Vec模型的实体相似度模型。该方法是对传统结构相似性函数、图核函数和图的子结构表示学习方法应用在实体相似度计算中的一个有效补充与完善,是对已有研究方法的改进和提升,未来也具有很高的研究价值和潜力。