论文部分内容阅读
事件可信度表达了文本中事件的真实程度,描述了事件是否是一个事实,或是一种可能性,还是一种不可能的情形。事件可信度信息普遍存在于自然文本中,反映了不同的事件参与者对事件真实程度的不同态度,或者事件在不同上下文环境下的可信程度。事件可信度识别任务是自然语言处理领域中诸多相关任务的基础,例如问答系统、观点检测、情感分析、谣言识别等。本文主要从句子级和篇章级两个层面研究事件的可信度,围绕事件可信度识别任务中的三个子任务开展工作:(1)不确定和否定作用范围识别。该任务负责识别不确定和否定线索词的语义作用范围。本文分别提出了基于卷积神经网络和LSTM神经网络的作用范围识别模型。实验证明,本文模型在Bio Scope语料上取得了较好的性能。(2)句子级事件可信度识别。该任务识别句内相关源对于事件可信度的评价。本文提出了一种基于生成式对抗网络的句子级事件可信度识别模型。实验证明了本文模型优于基准系统。(3)篇章级事件可信度识别。该任务从事件所在篇章的角度出发,识别其篇章级可信度。本文首次构建了基于篇章级事件可信度的语料库,并提出了基于对抗训练神经网络的篇章级事件可信度识别模型,该模型在性能上优于其它基准系统。具体而言,本文研究的主要内容分为以下三个部分:(1)基于结合句法路径的CNN和LSTM神经网络的不确定和否定作用范围识别。已有研究证明,句法特征是不确定和否定作用范围识别的重要信息。然而,已有研究在选择特征时人工参与较多。为此,本文提出了两种神经网络模型用于识别不确定和否定作用范围,并将从线索词到词语的句法路径作为主要的句法特征。其中,基于卷积神经网络的模型将作用范围识别任务看作词语分类任务,并使用CNN从句法路径中抽取句法特征信息;基于LSTM神经网络的模型将作用范围识别任务看作序列标注任务,使用一个LSTM神经网络学习句法路径中的特征信息,并使用另一个LSTM神经网络对句中词语进行序列标注,识别线索词的作用范围。实验表明,本文提出的神经网络模型在Bio Scope语料库上取得优异的性能。(2)基于生成式对抗网络的句子级事件可信度识别。本文首次提出了一种分两步的有监督学习模型。首先,从生语料中抽取计算事件可信度的基本信息,包括事件、源引入谓词、事件相关源、不确定和否定线索词等。然后,本文提出了一种具有辅助分类的生成式对抗网络模型识别事件可信度,并将基本信息到事件的依存句法路径作为句法特征。该模型中的生成器能够生成接近于真实分布的句法路径,以提供更多有用的句法信息。另外,模型中具有两个输出的辅助分类能有效识别不确定和否定可信度值。实验表明本文模型在Fact Bank上优于其它基准系统。(3)篇章级事件可信度语料库的构建。目前,相关语料库的缺乏制约了篇章级事件可信度研究的进展。因此,本文构建了英文和中文的篇章级事件可信度语料库,该语料库是首个标注了篇章级事件可信度的多语种语料库,包括1727篇英文和4649篇中文新闻文档。对语料的统计和实验性能说明,本文构建的语料库可以全面反映新闻文本的语言特点,为篇章级事件可信度的研究提供了足够且有效的语料库支持。(4)基于对抗网络和序列间注意力机制的篇章级事件可信度识别。本文提出了一种基于对抗训练的LSTM神经网络模型,用于识别篇章级事件可信度。该模型使用基于注意力机制的LSTM神经网络模型,从句子和句法路径中学习特征表示,并使用序列间的注意力机制抽取序列集合的特征表示。此外,该模型在词嵌入向量表中加入小幅摄动,采用对抗训练,增加模型的鲁棒性。实验证明,考虑对抗训练和句子的上下文,均能提高模型的性能。目前,事件可信度领域的相关研究仍然处于初始阶段。本文聚焦于事件可信度识别研究,针对句子级和篇章级事件可信度识别任务,在方法和资源上均有所创新。本文研究对事件可信度识别领域相关研究具有重要的参考价值,并有助于自然语言处理领域相关任务的发展。