论文部分内容阅读
事件同指消解用于链接指向同一真实事件的各种实例,是信息抽取的主要任务之一。由于事件的表达形式灵活以及事件间关系复杂,和实体同指消解相比,事件同指消解任务具有更强的挑战性。以往在事件同指消解方面的研究使用了大量手工抽取特征,不仅耗时耗力,而且可移植性差。随着神经网络在自然语言处理领域的广泛应用,本文对文档内事件同指消解的神经网络方法进行深入研究,以解决事件同指消解中存在的问题。本文的主要研究内容包括以下三个方面:(1)针对现有事件同指消解方法中事件表示方式单一问题,提出了基于注意力机制的英文事件同指消解神经网络方法。首先,采用多种语言学知识来丰富模型的事件表示;其次,使用双向长短时记忆网络、卷积网络和注意力机制来分别提取事件的全局特征、局部特征,并过滤掉冗余信息。在此基础上,利用神经网络的相似度模型来生成同指事件链;最后,使用全局优化方法进一步优化同指事件链。在英文语料库KBP和ACE上的实验显示,本文提出的方法性能优于基准系统。(2)针对中文存在的一词多义和多种指代问题,提出了基于多种相似度的中文事件同指消解神经网络方法。首先,在对多种语言学知识利用循环网络编码的基础上,使用门控注意力机制控制信息流动,筛选出事件中相对重要的信息,从而简化后面的计算;然后,引入三种相似度和匹配特征辅助判别事件对之间是否存在同指关系。在中文ACE语料库上的实验显示,该方法性能优于基准系统。(3)针对中文和英文语料的规模小导致神经网络无法充分学习的问题,提出了基于中英跨语言学习的事件同指消解神经网络方法。首先,使用机器翻译工具将源语言语料翻译成目标语言部分对齐语料,并利用触发词的依存词与论元来自动抽取出单一事件;其次,通过共享参数的方式在英文语料基础上进行跨语言学习;最后,计算两个单一事件之间的线性相似度与非线性相似度,并利用神经网络的相似度模型来判断事件对是否同指。在英文ACE语料库上的实验显示,该方法在多个指标上优于基准系统。本文针对事件同指消解中存在的问题,提出了三种有效的事件同指消解神经网络方法,提升了事件同指消解的性能,有助于事件同指消解研究的进一步发展。