事件检测任务中数据增强技术的研究

来源 :东华大学 | 被引量 : 0次 | 上传用户:Linhan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
事件检测是自然语言处理领域的一个子任务,其目的是识别句子中的事件,具有重要的应用价值。当前现有的人工标注语料库如ACE和KBP规模较小,很大程度上阻碍了基于神经网络的事件检测方法的进一步研究。另外,现有的事件检测模型存在无法解决文本长依赖问题。本文提出了基于触发词感知的回译数据增强方法来解决低资源事件检测任务中的深度学习模型训练问题,针对文本长依赖问题提出了基于Transformer的事件检测模型。本文的具体贡献如下:(1)针对模型训练数据不足问题,提出了基于触发词感知的回译数据增强方法。通过回译可以使句子在保留语义的同时结构顺序发生变化。若将该方法生成的数据加入训练数据,有利于训练的模型更深入理解文本,然而,在回译过程中数据的标注信息丢失了,导致新生成的数据没有标签。为了解决这一问题,本文创新性地设计了一种基于触发词感知的标注对齐算法。另外为了减少生成数据中的噪声对事件识别模型训练的影响,本文在识别模型训练过程中当使用生成数据时采用多示例学习(multiple-instance learning,MIL)方法进行择优筛选。在ACE2005中文数据集上,使用该方案的CNN模型的事件识别F1值提高了2.73%,使用该方案的Bi-LSTM模型的事件识别F1值提高了3.87%,这表明了基于触发词感知的数据增强方法的有效性。(2)提出了基于Transformer的事件检测模型。由于常用的循环神经网络或卷积神经网络无法很好地解决文本中的长依赖问题,这使得模型对文本理解能力较弱。本文首次将Transformer模型用于事件检测任务中,该模型包括一个基于句子的编码器和一个基于词语的分类器。在ACE2005中文数据集上的实验表明,使用基于Transformer模型取得的事件识别F1值与CNN或Bi-LSTM取得效果相当,但若同时应用基于触发词感知的回译数据增强方法和多示例学习方法,Transformer模型上得到的事件识别F1值是66.26%,相较于其他应用同样方案的模型,该实验结果最好,这验证了Transformer模型相较于其他模型有一定的优势。之后还分析研究了Transformer编码器中相关参数对任务中识别和判断事件的影响。(3)本文设计并实现了一个新闻事件抽取系统,用以实现对重要新闻事件的结构化提取。本文使用Vue.js框架对系统前端进行实现,使用Spring boot框架对系统后端进行设计实现,实现了用户管理、模型管理、模型选择、新闻事件抽取等功能,在一定程度上实现了对重要新闻事件的结构化提取和管理的需求。
其他文献
近年来,三维网格模型分割成为计算机图形、图像学的研究热点,越来越多的研究者深入网格分割领域,促使分割技术不断发展,但现有的网格分割方法大多不能完全适用于不同种类的模型,这些三维分割算法或多、或少存在各自的分割缺陷。仅仅利用传统形状直径函数的三维分割算法,存在计算量大、无法较好的适应复杂模型等缺点。为了使三维分割能够较好的适用于不同类别的模型,提高分割速度、增强分割鲁棒性和提高模型分割准确度等,本文
学位
可达性查询是图上的基本操作之一,用于判断图中两结点之间是否存在可达路径。现有的可达性查询算法可分为两类,第一类是直接在原图G上构建索引来回答查询,但其查询性能会受图规模的影响。第二类是首先将原图G进行规约,得到规模较小的规约图Gr,然后在Gr上构建索引来回答查询。现有的图规约算法可以显著减小原图G的规模,但是无法保证规约图上的查询性能。本文针对现有方法存在的问题展开研究,具体研究内容如下。首先,提
学位
随着超级计算机的迅速发展和E级计算时代的到来,计算科学开始发挥越来越重要的作用。计算流体力学(Computational Fluid Dynamics,CFD)作为计算科学的一个重要分支,如今在航空航天航海等领域的应用也愈加广泛,其中包括国产大客机研制、载人航天与深空探测等国家重大工程。基于CFD开展相关设计与研发工作,首先需要对计算域进行空间离散,即网格划分。相比于结构网格和笛卡尔网格,非结构网
学位
知识图谱是一种典型的多关系结构,由许多实体和关系组成。现有的知识图谱大多都非常稀疏,还不够完整。因此知识图谱补全任务应运而生,旨在通过原有知识图谱中的事实对那些可能存在的隐藏关系进行预测。常见的知识图谱补全方法,采用嵌入表示学习的模型借助三元组中实体、关系嵌入表示向量的近距离假设对隐藏关系进行预测。这类方法针对封闭世界知识图谱补全能发挥出较好的效用,但是针对开放世界知识图谱中的新实体类型与相关关系
学位
无差拍预测电流控制(dead-beat predictive current control, DPCC)因其响应迅速而在电机控制领域具有较大应用潜力,然而受参数敏感影响,该方法鲁棒性不高。为此,文中提出一种结合参数自适应的永磁同步电机(permanent magnet synchronous machine, PMSM)电流无差拍控制方法,以解决无差拍控制在参数失调下的鲁棒性问题。首先,介绍无差
期刊
随着互联网医疗事业的发展,医疗的智能化、信息化成为发展趋势。电子病历存储了丰富的患者诊疗数据,是实现智能化、数字化医疗信息建设的重要基础。但是,大部分电子病历都以自然语言方式录入的医疗文本格式进行保存。想要从这些非结构化、冗余且复杂度极高的医疗文本数据中直接获取高价值的内容是非常困难的,同时也不能直接使用人工智能算法对这些医疗文本进行深一步的挖掘与分析。因此,电子病历的结构化问题成为人工智能时代研
学位
机器阅读理解具有处理自然语言数据的能力,在智能信息检索、智能客服等多个领域都有重要作用,是实现通用型人工智能的关键技术之一,长期受到学术界和工业界的关注。伴随着深度学习技术的快速发展,机器阅读理解模型在一些单篇章短文本数据集上表现卓越,但这些模型难以应用于多篇章长文本阅读理解问题。现有模型一般将多篇章长文本切分为多个段落,通过集成不同段落的候选答案完成阅读理解,但这些方法存在答案被截断、文本整体信
学位
由于开源社区的开发人员数目呈指数型增长态势,数以百万计的软件开发人员正在使用开源软件(Open Source Software,OSS)托管平台来托管其代码并相互协作。软件仓库存储有关软件开发和维护的大量数据,软件仓库挖掘(Mining Software Repositories,MSR)是一直是软件工程领域的研究热点。开源开发者人数的激增,也为项目核心开发者在进行团队扩张决策的时候带来难题,需要
学位
目的:研究南京市江宁医院2020—2021年门诊口服降糖药物的使用情况及合理性。方法:抽选2020年1月至2021年12月于我院门诊接受口服降糖药治疗的患者80例进行回顾性研究,结合患者资料信息分析年龄、性别因素对疾病的影响。记录常用口服降糖药物类型、名称、构成比、销售金额、用量等,同时探讨口服降糖药物联用情况。结果:男性患者占比略高于女性,但无统计学差异(P>0.05);年龄50岁以上患者占比较
期刊
通过驾驶模拟实验采集22名驾驶人低等级道路行驶数据,借助Lorenz散点图提出驾驶波动指标,得到切向加速度、横向加速度和方向盘转动角速度的失稳波动阈值,分别为0.993、1.322和0.669。最后,利用模糊逻辑理论综合3项指标,完成对安全状态的分级。结果表明:切向和横向加速度的波动受天气场景和弯道半径的交互作用,在结冰路段的15 m弯道上最易发生危险失稳;方向盘转动角速度的失稳只受弯道半径影响,
期刊