文本事件抽取方法研究与应用

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:real_dolia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本事件抽取的目标是检测文本中的事件实例,如果存在,则标识事件类型及其所有论元和属性。近年来,虽然文本事件抽取方法研究得到了很大的关注,但是相对于实体抽取和关系抽取而言,现有的方法仍然存在模型复杂和抽取精度低的问题。本文考虑从特征编码和模型结构出发,采用流水线式方法,引入深度预训练语言模型,图卷积网络和注意力机制等,改进现有的文本事件抽取模型。主要研究工作如下:1.针对传统上下文无关词向量未考虑句子整体含义,无法直接获得句子级特征的问题,提出了一种基于BERT和图卷积网络的事件检测方法。该方法通过引入BERT词向量来丰富句子和单词的特征表示,并引入句法结构来捕捉长距离依赖关系,识别事件触发词。在基准数据集上进行了实验验证,并与其他具有代表性的触发词抽取方法进行比较,实验结果表明本文所提出的方法在实验数据集上的各项性能优于其他的方法,在事件检测两大任务上的F1分数分别达到了77.6%和74.2%。2.针对现有的事件抽取方法在论元抽取阶段容易忽略触发词和其他事件论元对候选事件论元的影响,提出一种基于Bi-GRU和Multi-Attention机制的事件论元抽取方法,该方法特征选取上结合了BERT词向量和其他基本特征。在模型构建上,采用了Bi-GRU网络来编码特征,同时多注意力机制能够将句子分成三个部分计算注意力权重。实验结果表明本文所提出的方法在实验是数据集上执行事件论元抽取任务的各项性能均优于现有的方法,论元识别和论元角色分类任务的F1分数分别达到了69.2%和61.6%。深度语言模型、多注意力机制和Bi-GRU结合有助于提升特征编码质量。3.基于上述研究成果,将提出的两个方法应用于新闻事件抽取领域,设计并实现了新闻事件抽取原型系统。在该系统中事件抽取模块以流水线的方式完成抽取,触发词抽取和论元抽取两部分分别采用了基于BERT和图卷积网络的事件触发词抽取方法和基于Bi-GRU和改进注意力机制的事件论元抽取方法。该系统提供可视化的Web界面,有助于提升企业工作效率。
其他文献
渗流理论在建筑、水利、环保、化工、地质、生物等多领域都有较为广泛的运用,它能够为开发水资源提供依据,能指导大坝的修建,也能防止建筑物地基发生渗透变形。以建筑行业为例,几乎所有的建筑活动都伴随着渗流的参与,其每年因渗流事故产生的人身、经济损失难以估量。目前业界多采用声呐技术探测天然流场的地下隐蔽工程的渗漏缺陷。在生产环境中,该技术要求对不同类型的声呐渗流数据进行分类,并且由于渗流数据情况多变、数据量
在今年的全国两会上,全国人大代表,南方电网广西电网公司董事长、党委书记揣小勇提出将数字电网建设作为“数字中国”建设重要行动项的建议,受到广泛关注。数字电网建设通过先进数字技术与能源生态深度融合,不断提高能源领域数字化、智能化、网络化、低碳化水平等一系列举措,开启电网“智慧”时代的新蓝海,是建设“数字中国”重要的基础性环节。近年来,
期刊
糖尿病性视网膜病变(DR)是糖尿病的高度特异性血管并发症,DR会导致眼睛出现异常,从而导致视力下降,严重会导致视网膜脱离而完全丧失视力。近年来,频域光学相干断层技术(SD-OCT)在成像速度、分辨率方面产生了根本性突破,它能清楚地显示十八层视网膜结构,且扫描速度快,能在短时间内采集数百幅高分辨率层析图像,对医学成像具有重要意义,已成为眼科医生诊断眼底疾病的重要工具。本文利用图像处理和分析的方法,对
随着软件行业的快速发展,软件成本管理作为软件工程重要的一环,越来越得到相关从业人员的重视。COCOMO Ⅱ模型作为理论研究最为广泛的软件成本估算模型,其成功得益于将影响软件成本的因素严格地隔离出来,表示为5个规模因子和17个成本驱动因子,每个因子分为四到六个等级。如何准确、科学地使用这些因子是一个值得长期探讨和发展的课题。随着机器学习的兴起和历史数据的沉淀,使得深入研究这些因子的定级过程成为可能。
高光谱图像是由空间维和光谱维组成的三维立体图像,拥有丰富的空间光谱信息,在精准农业、环境监测、军事侦察等许多领域都得到了广泛应用。高光谱图像分类技术是图像分析的关键技术,根据是否使用标签信息,可以分为有监督分类和无监督分类两种,其中无监督分类又称为聚类。高光谱图像的真实地物标签标注是像素级的,获取非常困难且价格昂贵,因此不需要使用人工标签的聚类,就得到了众多学者的关注和研究。由于高光谱图像具有高维
随着市场和用户对物流服务质量及配送时效要求的不断提高,A公司物流中心的作业效率也有了新的要求,针对物流中心传统的作业方式急需改进的问题,本论文研究并实现了A公司物流中的货位分配和路径优化的应用,从而提高了物流中心的作业效率和管理质量。论文阐述了A公司物流中心的运营情况,讨论了影响物流中心货位分配不合理和拣货路径的浪费的主要因素,分析了目前常用的货位分配策略和拣货路径优化策略,重点讨论了物流中心货位
随着各领域对软件需求的提高、信息处理量的剧增,使得软件系统的规模日益庞大、结构日趋复杂。如何有针对性地进行软件故障定位,快速、准确地检测到缺陷程序,提高软件程序的调试效率,仍然面临挑战。针对较大规模软件以及同一软件升级版本故障定位效率低、准确性不高等问题,本文以程序源码为研究对象,面向软件单故障定位和软件多故障定位两个不同场景,采用传统的机器学习技术和最近的深度学习技术作为解决方案的基本组成,开展
利用常规气象观测资料、1°×1°NCEP再分析资料、FY-2G静止卫星及郑州和洛阳CIN-RAD/SA雷达资料,结合探空和地面逐小时区域自动站资料,对“7·20”郑州特大暴雨的环流背景、卫星云图、双偏振雷达特征进行了分析。结果表明:中低层低涡、切变线和200hPa强辐散的叠置,为郑州“7·20”特大暴雨提供了强劲的动力条件;副热带高压偏强偏北,致台风“烟花”和“查帕卡”外围的东南和偏东急流持续向郑
现代雷达所处的工作环境比较复杂,由于周边目标的存在以及电磁干扰等原因,欠定问题和信号相干问题是当前阵列雷达系统进行DOA(Direction of Arrival)估计时所面临的两大难题。然而当前已有的解决这两类问题的算法大多是基于线阵提出的,并不适用于均匀圆阵。均匀圆阵相比于线阵拥有更好的角度估计性能且能同时估计俯仰角和水平角。基于此,本文基于LFMCW(Linear Frequency Mod
随着网联化技术不断发展,车联网网络安全问题逐渐暴露出来,对于车联网安全研究也在不断深入。入侵检测技术作为一种主动安全防护手段被应用到车联网当中,传统入侵检测技术并不适用复杂多维的车联网环境,现有的车联网安全研究工作更多注重车辆安全和功能安全,缺少入侵检测研究但更多的实例证明入侵行为在不断发生和增加,研究适合车联网的入侵检测技术十分必要。因此,本文针对车联网数据复杂多维条件对车联网数据进行特征处理并