基于深度学习的实体关系联合抽取

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:lihaolong2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据时代的到来,互联网上产生了海量的文本信息。由于大量非结构化的文本因其结构松散,内容冗杂,无法直接提取关键内容,给数据管理以及分析和挖掘带来了挑战,因此,信息抽取作为从大规模海量文本中抽取结构化知识的技术受到广泛的关注。作为信息抽取的关键子任务,实体识别和关系抽取是知识图谱,智能客服等自然领域上游任务的基础工作,也是帮助法律、金融、医疗等垂直领域实现文本自动化的关键技术,其任务是从输入文本中识别命名实体的边界和类型,并且判断实体之间是否存在某种类型的关系。近些年来深度学习发展迅速,其强大的参数学习和特征提取能力弥补了传统的机器学习算法和人工构建特征的不足,更加有利于实体识别和关系抽取模型的构建。传统的管道式抽取将实体识别和关系抽取分成两个独立的子任务分别构建模型,因此会导致上游任务误差的累积,信息冗余以及子任务之间缺乏关联等问题。本文对基于深度学习的实体关系联合抽取展开研究,调研了国内外研究发展现状,针对现有模型存在的缺陷和不足,提出了两种联合抽取模型,具体的工作内容如下所示:1.提出了一种基于多层指针网络与多头选择机制的联合抽取模型。通过使用基于BERT的共享编码层建立实体识别和关系抽取子任务之间的依赖,使得模型能够同时进行两个子任务,降低了误差传播的累计。针对实体识别的实体嵌套问题和关系抽取时的关系重叠问题,分别使用了多层指针网络和多头选择机制,使得模型能够更好地处理复杂实体关系。为了提高关系抽取的精确度,模型中加入了全局关系预测的辅助任务,让模型学习到句子级别的关系信息。为了提高模型的泛化能力,模型训练时加入基于FGM的对抗训练。模型在数据集上取得了良好的表现,并且通过消融实验验证了各个部分的有效性。2.提出了一种融合BERT和改进多头选择机制的联合抽取模型。在前述模型的基础上,为了更好地利用BERT模型的语义表达,重新构建了基于BERT编码层的输出向量,并且通过实验分析了当前任务下不同方式构建的BERT输出向量的性能。为了更好地构建关系预测矩阵,使用双仿射计算代替原有的线性变换,提高了实体对之间关系特征的交互;通过实验验证了模型的有效性,并且与现有的联合模型进行对比实验,取得了更佳的结果。
其他文献
随着异构无人系统的应用越来越广泛,多机器人协同成为趋势,而异构多机器人协同的基础是要实现异构平台或设备的互联互通并进行有效的信息交互。但是由于执行协同任务的无人系统并非来自于同一生产厂商的同一型号,所以无人系统间建立互联互通就会带来诸多问题。比如最常见的由于无人系统间接口标准、数据传输方式以及能力的不同,使得无人系统表现出很强的个体异构性,影响无人系统的通信效率,为了屏蔽异构性,通常的实现方式是将
随着数字化时代的到来,人们在问答系统、智能客服、信息检索、文本复述、机器翻译等人工智能领域的需求日益增长。为了提供高质量、高效性的服务,无数学者投入到文本语义匹配的相关技术研究中。作为自然语言处理领域的一项基本问题和研究热点,过去文本语义匹配问题的相关研究主要是基于统计机器学习技术的。该类语义匹配模型需要消耗大量的人力成本才能挖掘出文本潜在的特征。随着深度学习技术的日新月异,文本数据的特征提取不再
多标签文本分类作为自然语言处理领域的一项基础任务,广泛应用于情感分析、问答系统和推荐系统等领域。本文主要研究基于深度学习的多标签文本分类,通过深入分析了多标签文本分类的难点并从当前的国内外研究现状中受到启发,提出了两种多标签文本分类模型:1.本文第一个模型提出一种融合标签注意力机制和自注意力机制的方法来获取文本特征表示,同时在模型预测层加入了关系网络来获得标签间的相关性。标签信息对文本分类起重要作
随着人工智能技术的不断进步,现有机器模型已经基本达到了感知智能,正朝着认知智能前进。自然语言处理是智能认知的基础,是学界和工业界的研究热点。为了满足社会对各种语言的需求以及世界各国日益频繁交流更加的便捷,价格低廉的机器翻译研究正在逐渐兴盛。随着深度学习技术的持续提高,机器翻译也逐渐融合了这些方法和策略,并且在多个任务中斩获不错的成绩。但是还存在一些不足的地方。首先,大多数的翻译模型都基于注意力机制
飞机在结冰气象条件下飞行时,机翼、尾翼、发动机、传感器等核心部件易发生结冰现象,其中机翼结冰不仅会影响飞机的气动性能,严重时还会导致飞行事故的发生。因此,开展飞机结冰原理研究、预测翼型结冰及其气动特性变化具有重要意义。当前飞机结冰预测方法主要包含飞行试验、风洞试验以及数值计算等方法,这些方法往往存在预测周期长、所耗资源大等问题,无法实现快速、高效地预测。对此,本文利用深度学习开展翼型结冰相关研究,
实体关系抽取是自然语言处理领域中处理非结构化文本的重要方法,能够从非结构化文本中提取出有效的实体对和关系,形成(头实体,关系,尾实体)的关系三元组结构,进一步生成实体关系网络,是搭建知识图谱及后续拓展研究的技术基础。生物医学领域存在大量的非结构化文本,同时业界对这些文本的分析处理也有浓厚的兴趣,因此本文选择该领域作为应用场景。随着深度学习技术的发展,基于深度学习的实体关系抽取方法较传统的特征提取方
随着经济全球化的进程,金融活动日益活跃,洗钱犯罪行为也日益猖獗。而银行作为金融活动的主要机构,是洗钱的主要渠道,因此建立一套高效准确的风险防控系统可以给银行在日常的交易活动中带来很多便利。银行以往的反洗钱系统都是基于专家经验知识,在面对手段多样化,团伙作案、高效化的洗钱犯罪行为时,显得有些捉襟见肘。基于这种情况,本文在银行提供的丰富的日常交易数据的基础上,建立了一个高效准确的反洗钱监测服务系统。本
随着无人系统规模不断增长,现行有人/无人集中式控制技术瓶颈越发明显,亟需分布式、去中心化的自主协同,以达成更为灵活的自主可变的协同规划系统。然而目前针对自主可变集群规划系统的研究,在技术架构、实现方案上均鲜有报道。因此本文提出基于团队导向计划的自主可变集群规划系统,通过对有人/无人集群协同现状的调研,分析自主可变集群规划的需求,在有人/无人车集群协同探测背景下,设计并实现了基于团队导向计划的自主可
国家航天航空事业蓬勃发展和进步与空气动力学的研究息息相关,如何有效的进行气动建模一直是该领域专家们研究的重点问题,对于传统的基于物理模型的方法来说,由于存在一些复杂且难以求解的偏微分方程导致其计算效率无法满足实际需求。而且需要耗费很多资源。很难满足实际需求。因此有人开展了基于数据驱动的无模型方法研究,但同样存在着生成数据精度不高的问题。基于生成式对抗网络(GAN)模型在诸多领域中的良好表现,因此,
在现实生活中,存在着丰富多彩的复杂系统,例如航空运输系统,海上运输系统等。为了更好地研究种种复杂系统的特性,我们人为地将复杂系统抽象成便于理解记忆的网络结构,这就是复杂网络。在复杂网络的网络结构中,通常会存在一些对维持网络结构和功能的完整性都有着至关作用的节点。一旦这些重要节点受到攻击,网络将会遭到毁灭性的破坏。基于此,本文的工作将围绕着两点展开。一是如何对网络中的重要节点进行挖掘,二是如何对网络