基于问答的中文事件抽取研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:smarttiger1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
事件抽取是自然语言处理领域的一项基本任务,其目的是抽取文本中事件的触发词及其论元,抽取的事件信息能给知识图谱、对话和问答等下游任务提供有力的帮助。近年来,随着深度学习技术迅猛发展,替代传统静态词嵌入的预训练技术随之兴起。借助预训练模型,研究事件抽取开始有新的方向,利用问答去进行事件抽取就是一个新思路。在新方法应用到事件抽取任务上取得成效的同时,一些问题也亟待解决。譬如,句子级事件抽取模型先验知识有限、传统流水线事件抽取存在错误级联。另外,由于使用预训练技术的问答模型更适用于低资源场景,并且问题可定制,如何利用模型去反馈事件抽取任务,加速语料的标注,也是一个值得研究的课题。对此,本文从以下三个角度进行了深入地研究:(1)提出一个融入与任务相关篇章信息的触发词抽取框架。该框架通过与触发词抽取任务相关的问题来检索篇章信息,并利用这些信息拓宽模型的视野,使模型知识的获取范围不局限于句子本身。(2)提出了一种双向堆叠式问答框架。该框架首先将事件触发词抽取和论元抽取统一为一致的处理模式,即跨度检测与分类;其次将统一处理模式转换为两轮问答组件;最后框架通过设计额外的限制性问题来双向堆叠两个组件进行事件抽取,这样做充分利用事件触发词和论元之间的互补性,从而缓解了级联错误的影响。(3)提出了一种基于问答的语料标注方法。基于问答的事件抽取模型适用于低资源场景、问题可定制,该标注方法利用这些特性,大幅度简化语料标注工作,加快语料标注速度,从而正向反馈事件抽取。
其他文献
相比于传统制造方法如锻造,使用激光选区熔化(SLM)制备的同种材料一般强度更高。作为一种低碳钢,316L不锈钢相比于高碳钢等的强度较低,可以使用SLM制备316L不锈钢获得更高的强度。但SLM制造过程中复杂的热历史会引起材料的各向异性,使不同方向上性质不同。为研究其各向异性,并以使SLM制备316L不锈钢材料获得更高的强度为目的,本文使用SLM制备了 316L不锈钢并研究其显微组织与力学性能在垂直
学位
基于微透镜阵列的立体图像显示技术具有结构简单,视差连续等优点,在视觉防伪、广告印刷等方面有重要应用价值。微透镜阵列与光场图像阵列是实现立体图像的两个关键器件。在目前的研究中,立体图像显示所使用的微透镜阵列通常只有一个屈光面,导致具有运动视差的可视角度受限。在光场图像阵列生成方面,传统的通过多视点视差图像合成的方式存在计算冗余、像素映射缓慢等问题。本论文研究了具有两个屈光面的双胶合微透镜阵列设计和制
学位
后摩尔时代的集成电路特征尺寸已经进入量子效应显著的范围,传统的硅基芯片已经接近了性能极限,而碳基芯片的计算速度是硅基芯片的3-5倍,具有室温下导热性好,承载电流上限高,频响快等优点,因而碳纳米管(Carbon Nanotube,CNT)成为了有望替代硅的材料之一。以半导体型单壁碳纳米管(Single-Wall Carbon Nanotube,SWNT)为构建单元的晶圆级别碳基芯片,在自下而上和自上
学位
湿法微玻纤毡因其优异的隔声性能,在建筑隔声、航天航空等领域具有重要的应用价值。微玻纤在水中容易相互缠绕,从而出现絮聚、团聚等现象,这会影响复合毡结构的均匀性,导致复合毡性能下降,同时未添加黏结剂的微玻纤毡机械性能较差,黏结剂的大量使用存在水污染等问题。因此探索新的制备工艺,实现微玻纤毡质量均匀、结构稳定和制备出机械性能优异,声学性能优越的微玻纤复合毡是本课题的出发点。本课题通过对湿法工艺的设计,制
学位
采用氯化铵(NH4Cl)溶液浸出生活垃圾焚烧飞灰中钙后,再用碳化法对其进行回收。通过单因素实验和响应面设计获取钙离子浸出的最佳条件为:NH4Cl浓度为3.9 mol/L,反应时间为64 min,液固比为5.6 mL/g; 3个因素对Ca2+浸出的影响程度排序为液固比>NH4Cl浓度>反应时间。飞灰残渣重金属毒性浸出结果表明:Pb、Cu、Zn、Cd、Ni浸出浓度分别为0.0929,0.0012,0.
期刊
接插件是许多工业设备的基础器件,其质量优劣直接影响到工业设备的运行。接插件生产设备的温度与接插件质量关系密切,温度过高会降低接插件品质。在传统接插件的生产工序中,常采用人工测温的方式对设备进行监测,若设备温度未超出阈值范围时,再凭借个人经验调节设备运行速度以提升产量。但这种方式会耗费人力、浪费生产材料、无法准确提产。本文基于无线传感网(Wireless Sensor Networks,WSH)与无
学位
基于视频播放的景观照明是日益发展的数字城市的有机组成部分。随着通信技术、芯片技术、软件技术的不断演变,景观照明控制技术也在不断更迭之中,向着灵活配置、远程操作、云端维护等方向发展。本文基于新一代远程数据通信技术CAT.1及国产RISC-V内核短距离无线通信MCU,设计与实现了一款远程可维护及更换视频节目、可配置播放参数、边缘分布式节目存储的景观照明控制系统,主要工作如下。(1)基于通用嵌入式计算机
学位
元学习也叫学会学习,能够在已有知识的基础上快速获取新知识,适应新任务,是近年来机器学习领域的研究热点。在多数实际场景中,无标签数据比有标签数据更容易获得,因此,半监督思想被逐渐推广到元学习中。尽管现有的研究已经取得了一定的成果,但仍存在特征利用不充分、原型(类别表示)的代表性和可区分性不强以及无标签数据的利用方式不够完善的问题。本文通过自主设计的增强策略针对现有的半监督元学习算法存在的上述问题进行
学位
随着大数据时代的来临,数据更新速度快且具有多样性。如何对数据进行有效特征提取是数据预处理中必不可少的一个环节。特征选择是数据降维的主要方式之一,其目的是为后续的学习任务选择具有最佳判别能力的最优特征子集。目前,Fisher得分是一种简单有效的过滤式特征选择方法,其主要思想是寻找使得数据类内散度最小和类间散度最大的特征子集。Fisher得分最大的特点是不依赖于学习模型,可以直接和分类算法衔接。但是,
学位
互联网技术的快速发展让人们不仅能够从互联网中高效获取大量信息,还可以不断地产生信息上传到互联网,从而导致了互联网上信息数据的爆炸式增长。推荐系统作为解决互联网信息过载问题的关键技术,其核心思想是通过用户历史行为数据挖掘出用户的个性化偏好,从而为用户推荐其感兴趣的物品。在推荐系统中,协同过滤算法因其具备较强的可解释性以及领域无关等优势而被广泛应用,其实现一般可分为两个阶段:相似用户搜索阶段和评分预测
学位