基于文本的事件抽取关键技术研究

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:aileensa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网上蕴含着大量有价值的信息,诸如智能问答、信息检索、舆情监控等智能信息技术具备广阔的应用前景,而基于文本的事件抽取技术作为上述任务的重要前置,仍面临着诸多挑战。事件检测是事件抽取任务的难点,也是论元抽取的前提,而论元抽取是事件结构化表示的关键。目前,事件检测任务仍存在精度不高的问题,同时,事件检测研究一般面向开放数据集,而针对实际应用场景的研究较少。本文的事件检测研究服务于实际课题。首先,提出了针对实际场景下语料的三阶段标注方法,为事件检测技术的实验及有效性验证提供支撑;同时,提出了基于知识工程的事件检测、基于深度学习的触发词检测、面向句义及句法的事件检测等三种事件检测方法,以解决检测任务中的各个技术难题、互为补充,并在验证系统中融合三种模型结果以提升最终检测效果;在事件检测结果基础上,本文提出了基于依存注意力感知图卷积网络的论元抽取模型,在开放数据集上的实验证明了该模型的有效性。本文主要工作如下:(1)提出了针对南海台海语料的三阶段标注方法,通过清洗过滤降低了标注难度、通过触发词扩展提升了标注正确率,节省人力的同时实现了语料的高质量标注。同时,基于三阶段标注方法中的前两个阶段,构建了一种基于知识工程的事件检测方法,很大程度上缓解了模式匹配的机械性及触发词数量受限问题;(2)基于知识工程的事件检测方法很大程度上缓解了模式匹配机械性及触发词数量受限问题,然而,实际事件句中出现触发词表未涵盖触发词的情况仍难避免。为此,本文构建了基于深度学习的触发词检测模型,使用BERT-Bi LSTM-AttentionCRF模型直接检测触发词。基于深度学习的触发词检测突破了匹配方法的机械性问题,增强了检测的泛化性,具备了检测未涵盖触发词的能力;(3)针对某些事件句中触发词类型特征不明显或缺乏明显触发词的问题,本文提出了面向句义及句法的事件检测模型BDD,该模型跳过触发词、直接以句子作为检测对象。BDD提出了基于依存树的长短时记忆网络模型、基于依存向量的注意力机制,有效地提升了模型对句义的表示能力;(4)在事件论元抽取过程中,针对论元边界难以确定的问题,本文提出了一种基于依存注意力感知图卷积网络的论元抽取模型DAGCN-AE,强化同一论元词语特征表示的内聚性及不同论元词语特征表示的区分性。
其他文献
音乐在以语言为基础,以歌曲节奏为表现形式的同时,又蕴含了丰富的文化。它既是一个国家和民族思维方式、风俗习惯和精神风貌的展现,也是世界不同国家之间沟通的桥梁。利用中文歌曲进行汉语教学,正是得益于“音乐无国界”的共性,对略为枯燥乏味的语言学习注入新活力的教学方式。本研究以泰国威蒙工商管理职业学院汉语为初级水平的青少年学生的教学实践为例,在多元智能理论、音乐教学法、情感过滤假说等理论的基础上,对歌曲教学
学位
随着时代的发展,人们对于移动互联网的需求已经变得越来越多元化。当下,无线通信正融合着大数据、人工智能、物联网、AR/VR等许多新兴技术快速发展。不断涌现的各类新兴业务无论是对平台的实时算力,还是通信系统的传输能力都提出了更高的要求。为了解决当下以及未来无线通信不断提升的数据传输需求同时兼顾硬件效率的问题,面向无线通信的信号处理平台需要满足高吞吐率、低时延、高硬件利用效率以及满足一定的灵活性的需求。
学位
报纸
近些年,随着高速电路朝着集成化、大型化、密集化方向发展,高速通道因电路频率加快引起反射、同步开关噪声等一系列的问题。这些都对信号的接收造成一定程度的干扰,因此,对信号完整性进行分析尤为重要,这直接影响电子系统运行的正确性与稳定性。而现有传统仿真软件中的算法耗时长、效率低,已无法满足密集化电路的仿真建模速度。为了解决现有信号完整性分析方法速率慢、效率低,对数据依赖大的问题,本文以基于机器学习及其优化
学位
“能”“会”“可以”在能愿动词词频表的排序为第二、第三及第四位,然而这三个能愿动词在英国学生言语交际中的使用频率排序却是“可以”“会”“能”且使用时会出现很多偏误。“可以”“会”“能”高频率地运用于言语交际中使其成为二语习得的重点,而其本体知识的复杂性与偏误频发使其成为二语习得的难点。因此,对汉语学习者能愿动词“可以”“会”“能”的习得研究非常有必要。本文以英国学生在口语课及口语测试中的表现作为语
学位
随着人们对遥感目标信息需求的不断增加,精确重建目标场景的三维信息已成为遥感领域的一个热点研究方向。传统合成孔径雷达(Synthetic Aperture Radar,SAR)成像技术不仅丧失了目标的第三维度信息也使得目标的二维位置发生偏移。目前,利用单天线星载SAR多航过的方式可以实现目标场景的三维重建,但这种方式具有重访周期长、轨道控制复杂等问题。为此,本文开展了基于星载SAR多角度成像的目标三
学位
在第五代移动通信技术(5G,fifth-generation)中,各种新型应用场景层出不穷,产业规模发展迅速,为了支持多种不同类型的服务以及应对垂直行业的需求,在复杂需求场景下使用网络切片技术已成为行业共识。网络切片基于SDN与NFV两大技术,根据不同的业务场景需求,将底层物理网络虚拟化,对网络资源进行适当分配,从而划分出多种网络功能。网络服务提供商根据服务用户的业务需求,将网络切片部署在移动通信
学位
随着电子信息技术的蓬勃发展,当前集成电路工艺进入了纳米时代,印刷电路板(Printed Circuit Board,PCB)上元器件集成度越来越高,引脚数目越来越多,元器件间的连接关系越来越复杂,从而导致PCB设计工作之一的布线任务越来越困难。然而,现有的自动布线算法布通率低且速度慢,当前在工业应用中仍然大量依赖于工程师手动进行PCB布线,从而导致大量的时间和人力资源被消耗在布线工作中。因此,亟需
学位
无源定位技术一直是电子侦察领域的重要研究方向。与传统两步定位方法相比,直接定位方法不通过定位参数估计而是直接对原始采样信号进行处理而获得辐射源的位置估计,减少了信息的损失,具有更高的定位精度和更强的鲁棒性,因而受到越来越多的关注。近年来,稀疏重构理论被引入辐射源定位方法中,这给辐射源定位提供了一个全新的视角。针对信号传播模型参数部分未知和off-gird模型的辐射源定位问题,本文研究了基于稀疏表示
学位
六年级小学生林果果因为脸部长了一个明显胎记而被同学嘲笑和欺负,内心自卑的他在小学毕业的时候跟爸妈敞开心扉,开启了对过往的回忆,他想起了两年前已经去世的姥爷,想起了他最心爱的口琴。可是,搁置多年的口琴被母亲收拾垃圾的时候不小心扔了,在一次玩耍中,林果果意外发现拾荒者傻亮儿捡到一个口琴,于是他跟随傻亮儿去他家中,想确定口琴是否就是他自己的。在傻亮儿家的仓库里林果果碰掉了一个烟花瓶导致火灾,傻亮儿为了救
学位