基于机器学习的科技知识图谱中实体相似度计算

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:lqtanj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和信息技术全面融入社会生活,信息的发布、传播、获取途径变得多种多样,世界上充斥着比以往更多的信息,使得大数据技术和机器学习技术快速发展,也为开放科学创造了良好条件。面对开放科学环境中共享的海量科研信息,科研人员的需求也从广泛获取转为个性选择。为了向研究员提供高质量检索结果,以及精准、个性化的智能知识服务,各信息服务机构将知识图谱技术应用于大规模、异质多元、组织结构松散的科技大数据,构建学术知识图谱,利用机器学习技术挖掘数据价值。在构建知识图谱和提供知识服务过程中面临的问题有:如何对采集到的数据实现实体对齐和实体消歧从而建立高质量知识图谱、如何向用户推荐其感兴趣的信息来提供知识服务等。解决这些应用问题的关键技术之一就是实体相似度计算。
  本文以智能知识服务为应用背景,以学术知识图谱中的学者相似度问题为例,探索采用新兴网络表示学习方法(Graph2Vec模型)改进现有的实体相似度算法,旨在解决学术知识图谱中的实体相似度计算中存在的问题。本文主要完成(1)基于Graph2Vec模型的实体表示模型设计。选取学者特征构建学者图谱,利用Graph2Vec模型得到每位学者图谱的分布式向量;(2)选择相似度算法。选择向量相似度指标来计算向量相似度,从而比较学者相似度;(3)完成实验设计与实施。从科技知识图谱中采集学者图谱数据,实现学者相似度比较,验证基于Graph2Vec的实体相似度模型的有效性。无论图谱间节点个数相同与否、图谱间是否存在包含关系,都能识别出学者图谱间的相似性。本模型能够进一步改进学者对齐和消歧领域、以及推荐领域中的学者相似度计算方面存在的不足,并将本模型与Doc2Vec方法进行了对比,证明了本模型有更好的效果。
  本文根据现有知识图谱中的实体相似度研究的不足,首次将Graph2Vec模型应用于实体相似度计算,提出了基于Graph2Vec模型的实体相似度模型。该方法是对传统结构相似性函数、图核函数和图的子结构表示学习方法应用在实体相似度计算中的一个有效补充与完善,是对已有研究方法的改进和提升,未来也具有很高的研究价值和潜力。
其他文献
该论文在理论探讨的基础上,进行了大量的调查工作,结合具体案例对问题点进行了剖析,进而提出了具体的应用方案.论文研究的最终目的是通过对网络经济环境下客户关系管理来增强企业的核心竞争力提供现实的指导.由于当前现实情况所限,理论上的研究不可能深入到实践中的方方面面,因而存在着实践分析不全面的缺陷;另外,客户关系管理理论还在不断的完善,并且需要大量的计算机信息科技的支持,目前中国企业还不能达到此种程度,这
提要本文从激励与激励机制理论入手,运用实地研究、典型调查等方式,以及实地考察、请教专家、查阅资料、座谈、比较等研究方法,将我国公务员激励机制的总体概况与新疆公务员激励机制现状进行比较,结合新疆维吾尔自治区区情和公务员队伍现状,论述了构建新疆维吾尔自治区公务员激励机制的必要性,总结出目前新疆政府激励机制中存在的物质、考核、晋升、竞争、培训激励不足、精神激励方式落后,正、负激励不到位等突出问题以及问题
学位
邓之诚(1887-1960)是近现代著名学者,他以史学研究闻名于世,而他在文献学领域取得的成就,丰富而全面,亦是一位当之无愧的文献学家。本文通过对邓之诚生平及著述的全面考察,从他的藏书、题跋、版本学、目录学、文献整理与刊布、历史编纂学、史料学、文史考证等方面切入,综合探讨他的文献学思想、实践方法和治学成就。  邓之诚既深受中国传统学术浸染,又有新式教育背景,在治学过程中,强调史料文献的基础作用,讲
学位
领域知识结构的构建是一种跟踪领域研究进展,对领域知识进行体系化组织的重要形式和手段。在当前科研学术交流的范式向数字学术和开放科学加速转变的趋势下,科学数据、科学工作流、科学软件、实验视频、研究报告等非正式知识成果、以及各种正式及非正式知识产出的关联融合形成的各类新型复合学术对象,其学术价值和地位不断得到提升;不仅如此,关于学者、学术机构、科研项目、学术媒体等科研学术信息也日益成为支持科研活动开展的
研究前沿(Research Front)通常被认作是某时期内最具发展潜力的新兴研究领域或研究主题。作为科研资助部门、科研管理人员和科研主体重点关注的情报信息,情报学领域针对研究前沿的相关研究一直热度不减,其中基于共被引方法聚类获得的研究前沿也催生了具有广泛社会影响力的研究前沿情报分析产品,如ESI研究前沿等。然而,采用这种共被引方法遴选出的研究前沿和核心论文必须在施引文献达到一定数量时才会被监测聚
学位
信息技术与科学研究的交互融合引发了科学数据的迅猛增长,促成了数据密集型科学发现的科研范式。数据不仅仅只是科研活动的产出,已成为科研创新的基本生产资料和基础保障,高质量的可循证评议的研究数据已经成为保证科研结果可验证、可分享、可重现的基础手段。  数据出版(Data Publishing或者Data Publication)是基于同行评议的数据发表机制,是数据传播共享的重要方式之一。但是,目前数据出
学位
科技创新是创新驱动发展战略的核心,要求有与之相适应的科技评价机制。人才是科技创新的第一资源,只有尊重创新的价值、激发各类人才的积极性和创造性,才能更好的实现创新驱动发展。因此,构建针对创新性人才的评价方法体系,就成为建立具有创新导向的科技评价机制的核心内容。国家创新驱动发展战略对创新性科研评价的现实需求,使得合理评价各类人才的创新能力成为管理学领域的重要课题。本文将评价科学家的视角从“影响力”转到
学位
学科馆员是图书馆服务发展到一定阶段产生的提供个性化、知识化、专业化服务的人员。学科服务是图书馆服务的浓缩、是图书馆服务的窗口,可以说学科馆员未来怎样发展很大程度上决定图书馆未来存亡与发展方向。新型学术交流模式下,用户的科研环境、教学环境、学习环境、交流环境乃至生活环境都发生了巨大变化,科研模式、科研工具、教学内容与工具等都发生了变革,这些变革带来用户需求变化。以用户需求为出发点和目标的学科服务必然
学位
在开放科学、数据密集型环境的驱动下,科学数据不再仅仅是原有实验的研究对象,也逐渐变为一种学术资源。新型的、数量急剧增长的科学数据资源,要如何进行使用与评价,是人们亟需解决的一个问题。为此,科学数据平台建设、科研评价等领域都不断进行着理论研究及实践工作,但针对通过科学数据本身建立的、有效且定量评价指标较少。中国在大力建立国家科学数据基础条件平台的过程中,也缺乏着有效的科学数据评价指标,尤其是缺乏科学
学位
在新的信息数字化和全媒体时代下,图书馆面临着用户需求、信息行为多样化以及新技术冲击带来的挑战。借助营销服务宗旨、理念和方式,结合图书馆业务流程和用户服务特点,探寻用户需求、构建用户关系、推广服务活动、扩大服务影响,以及创造服务新的增长点等营销内容开展研究和实践,已成为图书馆界提升服务质量、自身价值和影响力,进一步推动图书馆服务创新发展的热点研究课题之一。因此,本研究工作将从以下五个方面开展:  (
学位