论文部分内容阅读
信息抽取任务随着互联网信息爆炸式的增长越来越凸显其重要性,而事件抽取又是信息抽取中至关重要的一个研究点。它旨在将无结构化文本中人们感兴趣的事件以及事件所涉及到的时间、地点、人物等元素准确地抽取出来并以结构化的形式存储下来,以供自动文摘、自动问答、信息检索、舆情监控、话题检测等自然语言处理上层技术的使用和用户方便的查看。事件抽取一般都需要预先指定事件类型,然后或基于机器学习方法,或基于模式匹配方法识别事件类型和事件元素。并且在以往的研究中,很少有学者在多种不同源的语料下测试方法的鲁棒性。因此,以往的事件抽取系统在领域自适应方面表现欠佳。本文在总结传统事件抽取系统的经验和不足基础上,提出了句子级中文事件抽取的几项关键技术研究思路,并在完全不同源的三种语料下测试均取得了不错的效果。1.提出了基于触发词聚类的事件类型体系自动构建方法。不仅成功地发现了ACE 2005预先定义好的33类事件类型,还在金融领域和音乐领域有着不错的表现,这说明该算法具有较强的鲁棒性和领域自适应性。2.融入外部词典资源解决ACE语料数据稀疏问题。本文提出了基于同义词词林自动扩展触发词的算法,该方法成功的融入了外部丰富的语义资源和背景知识,并在ACE 2005语料上取得很好的实验结果。3.提出模板泛化方法解决基于模式匹配的事件元素抽取召回率不高的问题。本文提出了基于BestMatch的模板泛化算法。对任意两个事件实例模板进行匹配,计算其匹配代价并泛化。经ACE 2005语料实验证明该方法一定程度上弥补了模式匹配召回率不高的问题。4.在事件元素抽取任务中,本文提出,用依存句法分析结果定位事件元素,用名词短语句法分析结果识别事件元素边界。这种方法很好的结合了两种句法分析器的优点:依存句法更加擅长于分析句法成分,给出事件元素核心词,而名词短语句法更擅长识别名词短语,给出完整的事件元素。