论文部分内容阅读
事件抽取旨在挖掘文本描述的具体事件信息,是信息抽取领域的一个重要研究任务。自动内容抽取(Automatic Content Extraction,简称:ACE)对事件抽取进行详细定义,分为触发词检测、事件类型分类、论元检测与事件角色分类。本课题聚焦于前两个子任务,统称为“事件检测”。作为事件检测任务的权威数据集,ACE05语料为具体事件标注了明确的触发词和对应的事件类型。目前,触发词检测与事件类型分类这两个子任务的性能均已达70%以上,但由于ACE05语料规模较小导致的数据稀疏以及数据样例分布不平衡问题,造成事件检测任务性能难以有较大提升,此外,触发词一词多义造成的歧义问题也较大限制了准确率的提升。针对上述提出的事件检测任务中存在的数据稀疏、样例分布不平衡以及触发词歧义问题,本文提出一种基于知识扩展与信息融合的事件检测方法,研究内容具体包含以下三个方面:(1)基于框架语义扩展训练集的有监督事件检测方法ACE05语料数据稀疏以及样例分布不平衡,导致事件检测模型训练不充分,且识别事件类型时,会偏向于样例较多的事件,而无法正确判断样例少的事件类型。为此,本文提出通过对ACE05语料进行扩充来缓解上述问题。事件与框架语义定义的相似性,及框架语义知识库FrameNet含有的丰富已标注样例,为语料扩充提供了可能。本文通过触发训与词法单元定义的相似性获取候选扩充数据,再利用事件类型与框架类型的相似度对候选扩充数据进行筛选,最终获得合适的扩充样例。通过利用不同事件检测模型对扩充后的数据进行实验,证明该方法可获得较好的扩充语料,从而改善事件检测性能。(2)基于实体关系改进事件检测的交互学习方法触发词在不同上下文语境中表达不同含义,触发不同事件类型,在事件类型识别子任务中,这种具有歧义的触发词会误导模型,导致事件类型识别任务性能较低。而句子中的实体关系往往能对触发词的语义进行约束,起到一定程度消歧作用,从而提高事件类型识别的准确率。为此,本文将实体关系作为特征,并设计基于注意力机制的事件检测模型,合理融合实体关系信息以及捕获上下文关键信息。此外,本文设计事件与关系联合抽取的交互学习模型,利用两个通道同时完成事件检测与关系抽取任务,双方分别利用对方的输出作为自己模型的输入特征,通过迭代交互学习,逐步改进自身模型的检测能力。通过实验验证,该方法在触发词检测与事件类型识别上的F1值分别达到75.3%与72.7%,对关系抽取的性能也有较大改善。(3)基于注意力机制指导异构图卷积网络的事件检测方法为充分融合文本的句法特征与语义特征,本文提出采用基于注意力机制指导异构图卷积网络的事件检测方法。本文采用句子的实体关系与依存信息构建异构图,并设计注意力机制对异构图的不同路径进行权重分配,以及对上下文不同词进行权重分配,通过多层卷积操作实现捕获文本句法特征与语义特征,忽略冗余信息的目的。该方法在融合句子中的关系信息与依存信息的同时,还加强了上下文与触发词的信息交互。实验证明该方法可以有效提升事件检测任务的性能。本文从知识扩展与信息融合的角度出发,基于不同的外部信息,采用合适的神经网络模型缓解事件检测数据稀疏、样例不平衡与触发词具有歧义问题,改善事件检测性能,其中,触发词检测的F1值达到76.8%,事件类型识别的F1值达到75.2%。