论文部分内容阅读
事件抽取是信息抽取领域中一项重要的研究任务,旨在从含有事件信息的非结构化文本中抽取出用户感兴趣的事件信息。微博是一种通过关注机制分享简短实时信息的广播式的社交网络平台,包含大量的文本信息。在这些文本信息中,含有用户感兴趣的事件信息。相比于正式的新闻文本,微博文本有着数量大、信息丰富、时效性高的优点,有利于更准确,更及时地提取更丰富的事件信息。与此同时,微博文本也有着表达随意、文本短小、信息冗余的缺点。 传统的无监督方法在进行微博文本事件抽取时需要预设超参数事件数量,并且该参数对系统性能影响较大,在处理大规模微博文本时,参数选择面临更多困难。此外,现有的微博文本事件抽取方法都没有考虑到命名实体之间的联系,在进行事件抽取时,依赖单词的形式是否相同。 本文的主要工作有: (1)为了解决现有方法依赖超参数设置的问题,提出了以狄利克雷过程事件混合模型(DPEMM)为核心的事件抽取框架,包括DPEMM模型和基于频率的后处理方法。该方法克服了传统的无监督微博事件抽取框架抽取性能对超参数事件数量敏感的问题。将该框架在3个数据集上与基准框架进行实验对比,在F1评价指标上分别提高了6.1%,7.7%,6.0%。通过进一步的实验分析,总结了该方法在实验数据集上优于传统方法的原因。 (2)为了解决传统方法中没有考虑命名实体之间的关联的问题,提出了以基于词向量的狄利克雷过程事件混合模型(DPEMM-WE)为核心的事件抽取框架,包括DPEMM-WE模型和基于共现的后处理方法。该框架在两个数据集上的F1评价指标比以DPEMM为核心的事件抽取框架分别高1,5%和3.5%。通过对聚簇结构的分析,可以发现DPEMM-WE的聚簇聚集了更多的事件信息;基于共现的后处理方法通过将单词之间的相关联系融入到后处理方法中,可以有效的屏蔽聚簇中的噪音信息。 本文共分为5章,第1章介绍研究背景以及工作现状,第2章介绍了理论知识及相关技术,第3章介绍了以DPEMM为核心的事件抽取框架及相关实验,第4章介绍了以DPEMM-WE为核心的事件抽取框架及相关实验,第5章对本文工作进行了总结,对未来工作进行了展望。