论文部分内容阅读
在数据爆炸性增长的环境下,信息抽取成为一种从海量数据中获取有价值信息的重要手段。事件抽取是信息抽取的一个子任务,其目的是把含有事件信息的无结构化文本以结构化的形式呈现出来,对问答系统、自动文摘和信息检索等自然语言处理应用的发展有着重要作用。现有的事件抽取方法大多将事件实例看作孤立的个体,忽略了事件实例之间的内在联系。本文主要从中文事件触发词推理、中文事件论元推理及中文事件联合推理三个方面进行研究,主要研究内容如下:第一,针对中文中存在的缺省问题,提出了基于马尔科夫逻辑网络(Markov Logic Networks, MLN)的中文事件触发词推理方法,运用篇章一致性原理、形态结构和组合语义学进行触发词推理。在ACE 2005中文语料上的实验表明,在触发词识别和事件类型分类上的F1值比基准系统分别提升了3.65%和2.51%。第二,针对现有的论元抽取方法中单纯利用句子级特征所导致的与触发词距离远的论元抽取性能低下的问题,提出了基于MLN的中文事件论元推理方法,运用篇章一致性原理和实体语义信息进行论元推理。在两个事件主题(冲突主题和司法主题)上实验的结果表明,和基准系统相比,在论元识别和论元角色分配上的F1值分别提高了6.84%和5.71%。第三,针对传统的事件抽取系统中管道模型会造成级联错误这一缺点,本文提出了基于MLN的中文事件联合推理方法,利用篇章级信息,加入了同指一致性和论元数量推理等推理规则,利用论元抽取中有价值的信息反过来帮助触发词抽取,从而恢复了部分触发词。在触发词识别、事件类型分类、论元识别和论元角色分配上的F1值比基准系统分别提升了1.68%、1.63%、1.92%和1.89%。本文提出了基于MLN的中文事件推理方法,实验结果证明了该方法的有效性,有利于该领域和相关领域的进一步研究。