论文部分内容阅读
随着web2.0时代的到来,网络文本数据成爆炸式增长,使人们淹没在数据的海洋中。如何对海量数据进行处理、如何高效地为用户提供需要的信息成为亟待解决的问题。开放域事件抽取正是在这一背景下逐步兴起的。本文中开放域事件定义与传统事件定义不同,主要以任意领域事件触发词为核心,并包括与其关联的时间、地点、人物、数量等多种元素构成的结构化数据,是不可预测的。本文的研究内容主要针对传统新闻媒体中的自由文本进行开放域事件抽取。同时由于微博也是一种信息分享、传播平台,对于热点事件挖掘有着重要意义,因此本文也研究了面向微博数据的事件检测、跟踪、表示。对于开放域事件抽取,本文将其分成两阶段任务:开放域事件触发词抽取与开放域事件元素抽取。针对触发词抽取,本文提出基于规则的方法和基于CRF模型的方法。规则方法需人工构建规则,有着抽取速度快、表征能力强的优点,但也存在规则不完备,过分依赖句法分析的缺点。CRF模型方法抽取准确率高,受句法分析影响小,但对于复杂句式抽取效果差。本文在此基础上将二者结合的融合策略,并通过实验证明融合方法的有效性。对于事件元素抽取,本文首先使用最大熵模型进行抽取,该方法简单,但没考虑到候选事件元素之间的特征,对于单句多个事件的情况抽取效果差。因此本文提出基于超图分割的事件元素抽取方法。通过将候选事件元素之间的语言特征和候选事件元素与触发词之间的语言特征融入到超图模型中,并使用超图分割算法进行事件元素的识别,该方法对于单句多个事件的情况有较好的抽取效果。针对微博数据,本文提出了一套完整的事件检测、跟踪、表示的框架。本文根据微博事件的特点,重点考虑了事件的时间演变效应。在事件跟踪过程中,本文新颖地从图论角度出发,使用二部图匹配算法进行事件跟踪。在事件表示中,本文着重从社会学角度考虑,引入了微博影响度因素,完善微博事件表示方法。本文的开放域事件抽取研究可以帮助用户从互联网文本中高效挖掘有用信息,也可以为知识推理或者问答系统等更高层的自然语言应用提供支持,因此具有十分重要的应用价值和产业意义。