论文部分内容阅读
近年来,对于事件的研究一直以来深受学术界的高度重视,其中,从海量文本中进行事件抽取,从而获取人们感兴趣的信息和数据是大数据时代亟待解决的关键技术。事件抽取是信息抽取的重要组成部分,事件抽取就是从非结构化文本中抽取出用户感兴趣的事件,然后用结构化或半结构化的形式描述出来,供用户浏览、查询或者进一步分析利用。事件识别和事件要素的抽取是事件抽取的两大主要任务,本文主要针对这两个内容展开深入研究。 (1)事件识别其实是事件触发词的识别过程,针对当下语料库资源缺乏造成的数据稀疏问题,本文提出了基于扩展触发词表和多特征融合下的机器学习相结合的事件触发词识别方法。基于扩展触发词表的识别方法有较高的召回率但准确率却很低。基于机器学习的识别方法准确率有明显提高但召回率却低于前一种方法。鉴于此,本文把两种识别方法结合起来,根据计算得出的候选触发词的权重分布情况设定一个阈值,候选触发词的权重大于阈值时即认定为事件触发词,当小于阈值时,就用机器学习的方法进行识别判断。实验结果表明通过把两种方法进行结合使用,召回率和准确率得到兼顾,F值也比较理想。 (2)事件要素的抽取方面,基于监督学习的方法对语料库资源的依赖比较强,不少研究工作都受到了数据稀疏问题的困扰。本文提出了聚类(无监督)学习的事件要素抽取方法,该方法能有效的减少对语料库的依赖。聚类算法选用基于距离的典型的k-means算法,但是传统的k-means算法忽略了各个特征对聚类分析影响的差异。在实际应用中,各个特征对聚类的贡献是不等的,所以在聚类分析过程中,特征的权重必须考虑在内。利用特征选择算法即ReliefF算法对特征进行加权选择,然后对传统的k-means算法进行移植改进,使改进后的算法能够适用于事件要素的抽取工作。实验表明,改进后的聚类算法比传统算法的识别效果好。