基于多粒度注意力机制的实体关系抽取研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:flyfox521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着5G时代的到来和互联网技术的持续推进,每年由互联网产生的信息量是以指数级增长的。然而海量数据中多以非结构化形式的数据存在,导致计算机无法直接从非结构化数据中获得人们所需要的结构化信息。随着深度学习技术的应用和发展,实体关系抽取任务转变为计算机自行学习关系实例的特征,并以一种计算机可以理解和识别的方式从海量数据中提取出结构化的信息。对于深度学习模型而言,需要大量标注的数据集用于参数的迭代优化,为了节约手动标注数据集的人力成本,研究中采用远程监督(Distant Supervision,DS)方式获取标注的数据集,即通过对齐知识库和非结构化外部文档的方式获取标注数据集。为了消除远程监督方法中引入的噪音,研究中采用多实例学习(Multiinstance learning,MIL)来训练模型,同时结合多种粒度级别的注意力机制来提取更加重要的信息。首先,提出了一种使用卷积神经网络(Convolutional Neural Network,PCNN)和双向长短期记忆网络(Bi-directional Long Short Term Memory,Bi LSTM)共同编码输入序列的关系抽取模型,解决了传统神经网络提取特征的局限性问题和序列内部长期依赖问题。另外,在预处理输入序列的过程中增加了位置嵌入的特征信息,进而突出实例中各单词相对于实体对的重要性。其次,为了消除远程监督中存在的噪音,在多实例学习的基础之上,模型中CNN分别与包级别的选择注意力机制和句子级别的多头注意力机制结合;Bi LSTM则与句子级别的单词注意力机制相结合。最终,通过为三个模块提取的特征信息分配不同权重系数的方式来表示整体模型的特征向量。最后,由参数校验实验确定模型各模块之间参数的比例关系;通过横向对比实验验证了多种粒度级别的注意力机制对消除远程监督中噪音起到的关键作用;并在远程监督数据集NYT10上,选择多个基于远程监督方法的实体关系抽取方法作为基线方法进行对比实验。本文所提出的模型在AUC指标达到0.461,相较于最早将注意力机制结合卷积神经网络的模型而言,该项指标提升了0.121。
其他文献
国内汽车保有量不断增高给城市交通带来了许多问题,所以交通智能化是未来的一个重要发展趋势。而车联网V2X技术则可以让车辆在行驶过程中可以实时与其他车辆和设备通讯,提前对车辆做出危险提醒并且预先规划车辆的行驶路线,提升驾驶的安全性降低交通事故的发生率,同时还可以通过多车协同和车路协同的方式提升道路内车辆的通行效率。本文对国标《合作式智能运输系统车用通信系统应用层及应用数据交互标准(第二阶段)》中定义的
学位
单细胞转录组学数据是现代系统生物学的重要数据类型之一,越来越多地用于各种生物医学研究,从而为复杂的细胞生态系统和潜在的分子相互作用关系提供新的解释。单细胞转录组测序技术(scRNA-seq)允许在不同条件下测量来自多个生物样本的数千个单细胞的转录组信息,其表达量可以反映细胞的总体特征。如今单细胞转录组学已经被广泛地用于解决细胞异质性问题。随着公共数据库中单细胞转录组数据的快速积累,如何利用现有的注
学位
Rust语言是一种兼顾了安全和效率的新型编程语言。近70%的计算机漏洞来源自Memory Management,而Rust语言几乎杜绝了此类问题,这样的特性令Rust语言极适合被主要用于一系列系统软件的开发。随着Rust语言走向成熟,它逐渐得到了工业界的广泛关注。微软公司已经将其应用到关键组件的开发中,Amazon,Google,蚂蚁金服等数百家国内外知名公司也开始利用Rust语言满足用户的安全需
学位
近年来,苹果的消耗量巨大,如何提高苹果的产量成为农业专家和果农们重点关注的问题。研究表明,病害是影响苹果产量与质量的主要因素,如何有效识别苹果病害种类并合理预防和治疗成为人们关心的重点问题。我国普遍采用专家人工识别的方法进行苹果树病害识别,但有限的力量难以完成高效的识别任务,与此同时也有农业专家将图像技术应用于病害识别。因此,本文的主要任务为将图像处理技术应用于苹果树病害图像的分类识别问题上来,优
学位
数学是初中阶段学生学习的基础性课程,与学生今后的学习、生活以及工作息息相关。从某种程度上讲,初中阶段属于数学学习过渡阶段,对学生进行核心素养培养,主要是指培养学生的抽象思维、分析思维以及逻辑推理等。基于此,初中数学教师不仅要重视数学理论知识讲解,而且还应该围绕核心素养,优化教学模式,有效激发学生数学学习热情,提升课堂参与性,最终实现综合素养培养目标。本文主要就核心素养培养理念下初中数学教学策略创新
期刊
<正>2021年9月13日,习近平总书记在榆林化工公司考察期间强调指出,把加强科技创新作为最紧迫任务,加快关键核心技术攻关,积极发展煤基特种燃料、煤基生物可降解材料等。习近平总书记的重要指示和殷殷嘱托,成为国家能源集团改革奋进和高质量发展的不竭动力。2017年重组以来,国家能源集团以习近平新时代中国特色社会主义思想为指引,深入贯彻习近平总书记关于科技创新工作的重要讲话精神和“四个革命、
期刊
网络技术发展虽然带来了信息共享,但是也带领世界进入了信息爆炸阶段,机器学习主要研究可以从大量数据中生成计算模型的算法,贝叶斯分类器是机器学习方法中的一种,贝叶斯分类器已经在许多领域得到应用。贝叶斯网络结构是贝叶斯分类器的基础,研究表明贝叶斯网络结构学习是NP问题,因此探索有效的结构学习方法是贝叶斯理论研究的热点。本文首先介绍贝叶斯网络的发展历程和主要研究方向。其次介绍与贝叶斯网络相关的概率论知识、
学位
为选育适宜青藏高原地区种植的高产稳产无芒雀麦(Bromus inermis-Leyss.)种质资源,缓解青藏高原地区草畜供需矛盾突出问题,促进高寒区生态环境治理,本研究以饲草高产为前提,利用隶属函数分析法,对国内外13份无芒雀麦种质资源主要农艺性状进行两年生产性能评价,并将筛选后优异资源进行草层结构、物质分配、营养品质分析,以探究其优异共性。结果表明:13份无芒雀麦种质资源中,B01,B09,B1
期刊
<正>近年来,互联网平台用工引发的劳动用工争议数量明显增加。在裁决规则尚未统一、平台从业者劳动权益保护尚未完全实现的背景下,争议解决程序耗时长、成本高已成为劳动者的维权难点。劳动争议处理过程中的维权难点从多方面反映的情况看,当前新就业形态劳动者在劳动争议处理过程中面临的维权难点主要有以下几方面。一是劳动关系认定难。自平台用工这一用工形式出现后,从业者与平台企业之间是否存在劳动关系即成为争议焦点。实
期刊
随着互联网技术的发展,目前人类进入了大数据时代,“信息过载”成为了当前人类面临的最困难的问题。对于互联网用户来说,他们无法从海量的数据中准确地获得自己感兴趣的内容。在最为经典的并且受到广泛应用的协同过滤算法中,其只关注到用户的评分,没有考虑用户兴趣是随时间变化的这一情况,时间上下文信息都会对用户兴趣产生影响,因此,融合的时间上下文信息是一个非常有效的方法。此外,深度学习经过多年的研究与发展,其在各
学位