论文部分内容阅读
事件是一种描述特定人、物、事在特定时间和地点相互作用的客观事实。事件抽取旨在从非结构化的自由文本中抽取出事件信息,并以结构化的形式表示。结构化的事件信息包含触发词、事件类型、事件成员及其角色。现有的事件抽取方法往往受限于数据稀疏问题而导致性能不高,数据稀疏问题是指由于语料规模较小、类别分布不平衡等问题造成模型训练不充分,难以在测试集中正确抽取出在训练集中未出现或出现较少的事件信息。针对事件抽取存在的数据稀疏问题,本课题提出以下解决方法:利用框架语义知识优化事件抽取本课题引入框架语义知识以辅助解决事件抽取中存在的数据稀疏问题。该方法首先将框架语义知识库FrameNet中的框架类型作为泛化特征,在此基础上进行框架类型和事件类型的映射,然后结合框架类型识别模型和事件类型识别模型进行协作判定,以此优化事件抽取的召回率和F1值。基于主动学习方法的事件抽取方法针对现有的事件抽取语料规模较小且标注质量不高,本课题引入基于串行模型和基于联合模型的主动学习方法,旨在提高语料标注的效率和质量。在基于串行模型主动学习方法的查询函数中,首先倾向于选择触发词分类不确定度较大的样例进行标注,直到触发词分类的不确定度较稳定时,再逐渐加大事件成员分类的不确定度权重。基于联合模型的主动学习方法将事件抽取的两个子任务触发词分类和事件成员分类看作一个整体的序列标注任务,即在查询函数中不再区分触发词分类和事件成员分类两个子任务的不确定度,而只需要考虑一个整体序列标注任务的不确定度。统计与词典相结合的事件抽取方法现有的事件抽取方法往往忽视长文本的短语作为触发词的情况,并且没有考虑伪事件中否定词和不确定词的作用范围,具有较低的召回率。针对上述问题,本文提出一种统计和词典相结合的事件抽取方法,该方法首先将高置信度词典特征分别加入最大熵模型和条件随机场模型,然后融合两个模型的结果,以提高触发词分类的召回率和整体性能。此外,针对事件真伪性识别任务,本文进一步考察否定词或不确定词与触发词的物理位置距离和依存路径距离等特征,以提高事件真伪性识别的性能。