基于图神经网络的同名作者消歧方法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:www474033605
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着全球学术活动蓬勃发展,学术文献的数量和学术研究者的人数与日俱增。因此,数字图书馆、学术搜索引擎等科技服务应运而生,为学术研究者提供了便捷的信息检索服务。然而,由于作者姓名的歧义性,文献知识库无法保证返回数据的准确性。这大大影响了人们学术活动的准确性和效率。在这一背景下,对于同名作者消歧问题的研究是很有意义且必要的。针对该问题,本文的研究内容概括如下:(1)为了有效地处理属性特征丢失严重的情况,本文提出了基于多种特征信息与图神经网络的框架MFAND。该方法首先使用一个特征生成策略生成多种特征信息,以处理严重的属性特征丢失的问题;之后,使用图卷积神经网络搭建了一个名为R3JG的编码器去重构和聚合多种特征信息,以增强MFAND的泛化能力;最后,将重构和聚合的特征信息输入到一个由多层感知机构建的二分类模型去实现消歧。(2)为了考虑不同的属性特征对消歧结果会产生不同影响的情况,我们设计了基于多相似度系数与多重注意机制的框架EAND。首先,该框架改进了原有的多种相似度系数,以解决量化成对出版物的相似性时面临的原始文档特征的尺度差异问题;然后,一种基于多重注意机制的特征提取模型(EX)被设计去捕捉多种类型的属性特征信息之间的影响,充分利用每个原始文档特征的贡献,并提取用于解决AND问题的关键信息;最后,将提取的关键信息输入决策模型(DI),以判别两篇文献是否由同一个作者发表。此外,DI还考虑了向量空间的结构信息。(3)为了能够处理同名作者增量消歧问题,我们构建了基于多领域信息与元学习的同名作者增量消歧框架IAND。该方法首先利用Word2vec技术得到语义型数据的嵌入表示,并使用改进的多种相似度系数得到结构型数据的嵌入表示;然后,借鉴GraphSAGE模型设计多领域信息聚合器(MIA),以有效地捕获和聚合由多领域信息组成的序列中的重要信息;其次,为了有效地聚合同一候选作者下所有的文献嵌入表示,设计了一个循环自动编码聚合器(RATA);最后,搭建了一个循环处理机制(RPR)以度量每个目标对与候选作者之间的相似度以实现同名作者增量消歧。综上,本文从三个角度对同名作者消歧问题进行研究,并在真实数据集上验证了相关方案的有效性,对文献知识库进行文献地组织和管理具有一定的参考价值。
其他文献
目的 探讨手法松解联合核心肌群训练治疗神经根型颈椎病的疗效及对血液流变学的影响。方法 选择2018年3月至2021年2月南京市高淳中医院收治的86例神经根型颈椎病患者为研究对象,按照数字表法随机分为对照组和联合组各43例。对照组采用核心肌群训练,联合组采用手法松解联合核心肌群训练,2组均持续干预4周。对比2组临床疗效及干预前、干预4周后颈椎病临床评价量表(CASCS)、视觉模拟评分法(VAS)评分
期刊
将深度学习与强化学习结合已经成为了一种主流趋势,但将其运用到现实环境还面临许多的挑战,仍需要大量的训练数据、高维度的观测空间以及精确的智能体输出端口,这些都需要更强大的探索算法,探索性的缺失将导致算法在多峰值函数的更新中陷入局部最优;然而过度的探索也会导致算法性能的下降,使算法的收敛速度下降。因此,如何平衡探索与利用的关系,加快算法的收敛速度,成为了强化学习算法的一个挑战。为了缓解上述问题,本文主
学位
2018年11月5日,科创板设立并试点注册制,国家设立科创板目的是给企业创新营造一个良好的资本市场环境,进而提升国家整体实力。科创板上市企业大部分是硬科技企业,具有的普遍特征是研发支出多。由于研发活动具有较高的资金风险,所以要准备充足的自由现金流规避资金风险。充足的自由现金流是企业进行研发支出,开展研发活动的驱动因素,研发支出的增加利于企业提高自身的创新能力,创新能力的提高可以有效促进企业实现可持
学位
最近,人机对话系统因其巨大的学术价值和商业价值而受到越来越多的关注。随着社交媒体和深度学习技术的迅猛发展,聊天机器人在生活中发挥着广泛的作用,它不仅可以满足人们的沟通需求,而且节省了企业的服务成本。为了更符合实际应用,人们往往研究多轮对话生成系统,这样可以利用更多的历史对话信息,同时也对如何更好地捕捉符合对话场景的特征提出了新的挑战。为了更好地对上下文信息进行建模,在多轮对话生成中,需要针对对话约
学位
互联网自问世以来,引发了席卷全球的信息化潮流,并逐步将第三次科技革命推向高潮,对人类生活的方方面面发起了颠覆性的改变。在此浪潮之中,诸多互联网企业迅速成长,研发出新颖的盈利模式、商业模式和先进技术,普遍具备高成长、高风险的特征。近年来,针对这一类企业的估值问题逐渐成为业界关注的焦点。但是这些企业收益的不确定性、市场数据和历史估值数据匮乏,直接导致了盲目套用传统估值方法往往造成结果上的巨大偏差,也使
学位
在我国,民歌是不同民族、地域、时代风土人情和人文精神的一种展示。作为传承地方音乐文化的载体,民歌是音乐鉴赏教学中不可或缺的一部分。在2017版《普通高中音乐课程标准》中明确了“弘扬民族音乐”的基本理念,音乐教育者开始密切关注音乐学科核心素养。其中引导学生通过音乐感知和艺术表现等途径,理解不同文化语境中音乐艺术的人文内涵是高中音乐鉴赏教学中的重要目标。在民歌鉴赏课中,从文化理解的视域引导学生理解民歌
学位
随着移动互联网的飞速发展以及大数据时代的来临,用户通过终端能获得的信息量爆炸式增长,产生了“信息过载”。为了从海量信息中挖掘到用户感兴趣的信息,推荐系统应运而生。其中,POI(Point of Interest)推荐是推荐系统中的重要场景。POI推荐旨在根据用户的历史交互序列,学习出更准确的用户兴趣表示,以便于向户推荐感兴趣的景点。但在现实生活中,历史交互序列无法反映出用户的当前动态偏好。而对话推
学位
事件检测是信息抽取领域的一个重要子任务,其主要目的是根据上下文识别出句子中的触发词及其事件类别,对于开发自动信息提取技术有着重要的意义。自然语言中事件信息的多样性为该任务带来了很大的挑战,本文从研究句子事件类别信息的角度入手,主要研究内容如下:(1)基于句子类别聚类的事件检测方法针对目前大部分事件检测研究忽略了句子之间事件关联的问题,本文从事件聚类角度出发,提出了一种基于句子类别聚类的事件检测方法
学位
元学习旨在充分利用少量的数据,学习出高效通用的知识,从而快速适应新任务。相比于传统深度学习,元学习降低了对大规模数据集的依赖,在一些难以获得大量数据的实际场景中具有较好的应用前景。目前元学习已取得许多卓越的研究成果,但在基于度量的元学习研究方向中仍然存在数据特征质量不高、度量方式不够适用、算法自适应性不强的问题。本文针对以上问题进行研究,具体创新点如下:(1)提出了特征自适应元学习算法,主要针对数
学位
研究如何运用设计手段发展乡村旅游,对改善乡村人居环境乃至整体推进乡村振兴战略,都具有重要意义。随着时代的发展和认知的进步,人们在进行旅游活动时对居住空间的需求也在逐渐发生变化。可移动屋舍具有灵活性强包容度高、可变性强、与乡村环境融合较好等特点,与乡村旅游发展中待解决的个性化、差异化、经济化、实用化等需求完美契合。文章从乡村旅游中可移动屋舍设计入手,力争通过“小切口、大纵深”的研究方式,通过使用文献
学位