论文部分内容阅读
信息抽取近年来一直受到国内外学者的广泛,国际上专门设立了 ACE评测会议来促进该领域的发展。事件关系是信息抽取中非常有意义的研究内容,主要包括事件时序关系、事件因果关系等。新闻事件因果关系可以帮助人们很好地理解新闻,把握新闻事件演变规律。在信息抽取,特别是自动问答系统有着广泛的应用前景。因此,新闻事件因果关系识别研究也成为一个热门研究点。现有的事件因果关系识别主要利用当前事件对的局部信息进行识别,识别效果不高,对于新闻报道中包含的其他信息没有进行充分运用。本文将引入跨事件方法对新闻事件因果关系进行识别,当局部信息不足以识别因果关系时,积极寻找新闻报道中的其他信息进行辅助识别。语料库是机器学习算法的基础。本文使用ACE2005会议提供的中文评测语料,该语料已经对实体、关系和事件进行了标注。本文针对该语料库进行了详细地分析,特别是与因果关系识别任务相结合的部分。围绕着语料库构建、融合跨事件方法的新闻事件因果关系识别展开了研究,主要完成了以下研究工作:(1)新闻事件因果关系语料库构建。在分析了 ACE2005中文语料库的特点以及新闻事件因果关系识别的实际需要的基础上对语料进行了事件要素抽取,如事件类型、事件极性、事件泛型、事件触发词、事件触发词词性等事件要素属性,并组织人员对语料进行事件因果关系标注。最终将标注的结果进行了存储,构建了新闻事件因果关系语料库。(2)基于跨事件的新闻事件因果关系识别。本文将跨事件方法引入到事件因果关系识别任务中来,选择特征空间构造最大熵分类器,进行句子级别的因果关系识别。设定阈值,对于获得的概率值高于阈值的,直接采用分类的结果;同时构建文档级别的分类器来进一步处理低概率的部分。(3)整合了上述两个的研究成果,设计并实现了新闻事件因果关系识别原型系统。