论文部分内容阅读
近年来,随着互联网的爆炸式发展,海量的数据通过文本数字化的形式呈现出来。面对信息爆炸的时代,如何从无结构的文本数据中提取出人们关注度高的热点信息成为自然语言处理当前的主要研究方向。信息抽取技术被作为这一问题的解决方案受到研究人员的广泛关注。其中,事件抽取是信息抽取技术的重要环节,也是信息抽取领域中最具挑战性的任务之一。事件抽取的目的是从无结构的文本数据中抽取出描述事件的关键元素,并将事件结构化的展示出来。当前事件抽取技术主要是基于语料的有监督学习,对高质量的语料标注依赖性较强。事件抽取从抽取的过程上可以划分为事件触发词抽取和事件要素抽取两个阶段。事件抽取技术的研究对知识图谱、舆情分析,自动文摘和机器翻译等自然语言处理任务具有重要的指导意义。传统事件抽取方法大多存在关键特征提取不足,容易忽略上下文语境信息等问题。为了解决上述问题,本文在长短期记忆网络的基础上,引入卷积操作和注意力机制,进行了一系列事件抽取相关的研究。本文的主要研究内容包括:1、本文提出了基于卷积长短期记忆网络模型的事件触发词抽取方法。在事件触发词的特征选择上,采用词向量和位置向量作为事件句的文本向量化表达。为了解决传统事件抽取方法中一词多义现象造成的事件分类错误问题,利用长短期记忆网络提取句子级别特征,卷积操作提取词级别特征,而后将两种特征结合起来进入输出层进行事件触发词抽取结果的预测。最后,除了标准的事件触发词抽取结果外,本文还在模糊触发词抽取任务上验证了模型的有效性。2、本文以注意力机制为核心,在长短期记忆网络模型的基础上,搭建了基于Encoder-Decoder框架的事件要素抽取模型。在特征选取上,除了词向量与位置特征外还选取了事件触发词类型特征作为文本向量化的表示。在事件要素抽取模型的构建上,注意力层能够有效表现出事件触发词和其它事件要素对候选事件要素的影响,解决了当一个事件句中包含多个事件时,事件要素角色容易识别混乱的问题,从而提高了事件要素的抽取效率。3、本文将事件抽取模型应用在新闻舆情领域,实现了新闻舆情事件抽取原型系统。新闻舆情事件抽取原型系统在具体的事件触发词和事件要素两个阶段中,分别采用基于卷积长短期记忆网络模型和基于注意力机制的长短期记忆网络模型,以流水线的方式完成事件抽取的全部过程。为了解决系统在实际应用过程中训练语料规模不足、无法适应新领域的问题,本文设计了增量学习框架,增强了系统的健壮性和普遍适用性。在事件具体展示的实现上,本文除了实现事件的结构化展示,还从时间和空间的不同维度上设计了事件时间轴和事件地图功能,使新闻舆情事件的记录有序化、系统化和完整化。