基于RoBERTa和多任务学习的实体关系抽取方法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:pearlpink
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着自然语言处理的不断发展,实体关系抽取作为信息抽取中的一个重要子任务受到许多研究者的关注。实体关系抽取可以分为开放域实体关系抽取和限定域实体关系抽取。限定域实体关系抽取作为实体关系抽取中最经典和最基础的任务,一直受到研究者们的关注。在限定域实体关系抽取中,传统方法基于模板匹配或传统机器学习需要根据语料人工构造匹配模板或者设计特征,费时费力且通用性较差。随着深度学习的发展,研究者们使用深度神经网络对文本进行特征抽取,在实体关系抽取上取得了突破。但是目前的大多数方法使用预训练词向量对文本进行映射,模型的性能受限于预训练词向量的语义建模能力,无法很好地建模文本的上下文语义和利用实体的语义信息。同时,这些模型局限于训练数据,对外部知识的利用不足。针对上述问题,本文提出了结合Ro BERTa和语义角色信息的关系抽取模型,并结合多任务学习的方法进行训练。本文模型使用Ro BERTa对文本进行建模,充分地学习文本的上下文语义特征,并引入实体的语义角色标签作为外部特征增强实体的语义信息。此外,为了加强模型建模与实体更相关的上下文向量,本文使用实体感知注意力对文本建模向量进行加权处理,生成与实体对更相关的上下文向量,减小与实体关系无关的文本的影响。最后,本文基于多任务学习的思想,引入辅助任务,通过共享参数的方法让模型学习到其他任务中蕴含的知识,进一步提升了模型的抽取性能。实验结果表明,本文提出的模型可以有效提升实体关系抽取的效果。在Sem Eval-2010 Task 8数据集上,本文模型无需人工定义复杂规则就取得了89.94%的Macro-F1值,接近于基于人工设定规则抽取句法指示符的Indicator-aware BERT的90.36%。对比实验的结果表明语义角色信息与多任务学习可以互补地提高模型实体关系抽取性能。
其他文献
在我国社会主义市场经济体制下,国有企业的存在已被证明具有可行性和必要性。长久以来,我国国有企业改革以“政企分开”为目标,倾向于将国有企业打造成为普通企业。但是,与普
近些年来,科研平台信息化管理工作的迅速推进使科研项目文档数据量急速增加。如何挖掘和利用科研文档蕴含的丰富信息,发挥数据的潜在价值,成为了科研平台亟待解决的问题。关键词信息能够高度概括文章主旨、组织文章内容,同时,关键词信息能被用于信息检索、热点分析、文摘生成等文本挖掘的多个领域。因此,对文档关键词信息的挖掘和利用,是发挥文档数据价值的有效方式之一。然而,目前的关键词提取技术提取关键词的准确率不高,
基于洞庭湖流域85个气象站点1961~2016年日降水数据和美国NCEP逐日再分析数据,对洞庭湖流域1961~2016年夏季(6~8月)极端降水事件的成因进行诊断分析。首先,分析夏季极端降水
随着通信技术和计算机设备的迅猛发展,网络化控制系统应运而生。由于其利用网络连接不同地理位置设备原件的特性,使得远程监测和控制系统运行状态成为可能,从而被广泛应用于
轨迹的分析与识别在很多应用场景都非常重要。在本文中,我们提出了一种新的具有高度信息量的原始轨迹表征方式——三维管状模型,并利用其特征进行轨迹运动模式的分析与识别。
地下水污染严重、水生态环境恶化等问题已成为制约经济社会可持续发展的主要因素。因此,亟需开展地下水污染治理与修复工作。准确识别污染源信息是高效治理和修复地下水污染
螺环骨架不仅广泛存在于生物活性天然产物、药物活性分子以及功能材料中,而且在手性配体或催化剂的合成以及现代药物发现中扮演着重要的角色。在众多的螺环骨架中,螺环己二烯
卟啉因其优良的光、电、磁性质被广泛研究。作为有机发光分子,卟啉在稀溶液中表现出强的红色荧光,而在高浓度溶液中荧光发射很微弱,这主要是卟啉分子之间通过范德华力、氢键
传统的观点认为,价值创造指的就是交换价值,在这个过程中,企业是创造价值,并通过价值链将价值传递给顾客,而顾客只是价值的接受者和使用者。随着互联网、云计算、网络经济、
近年来,酰腙作为稳定的亚胺替代物,在有机合成中越来越受到人们的关注。它可以和许多亲核试剂发生反应,生成各种含氮化合物。它发生的常见的反应主要有:酰腙的还原反应、Mann