论文部分内容阅读
随着微博日趋流行,它已经成为一种新型的信息发布和传播的社交媒介。截止到2012年12月底,新浪微博的注册用户已达5亿多。微博数据也随之增多,其中包含大量对组织或个人有价值的信息。从而对微博进行信息抽取、分析以及自然语言处理成为当前研究热点。命名实体识别作为这些研究的基础工作就显得尤为重要,但当前针对微博数据的命名实体识别研究还很不成熟,传统的命名实体识别方法在微博数据上无法获得令人满意的结果,从而阻碍后续工作的进行。本文主要研究微博数据上命名实体识别任务。微博数据的一些特有属性导致了传统模型的失效,究其根本主要有以下四点原因:一是每条微博篇幅短小,包含信息量有限,对于命名实体识别来说,难以充分融合大量相关信息;二是微博中充斥了大量噪音数据,加上模型抗噪能力差的问题,导致模型在训练时发生“过拟合”现象;三是对于微博的研究往往缺乏大量完备的训练语料导致模型训练不足,为获取训练数据需要耗费大量的人力资源;四是微博数据具有信息更新速度快的特点,模型适应能力差导致发生模型“欠拟合”现象。经实验表明,传统命名实体识别方法在微博数据上F1值会下降20%之多。为了解决上述问题,本文综合了多种技术实现了微博数据上命名实体识别任务,获得结果的准确率、召回率及F1值分别为:83.7%、79.8%、81.8%。该结果相对传统方法有了很大的提高。本文从以下几个方面克服了传统模型在微博数据上的劣势:一是建立了一个半监督命名实体识别框架,将预测结果连同之前的训练数据重复训练模型解决了缺乏训练数据的问题,同时使模型更加能够适应数据时常更新的环境;二是在CRFs模型的基础上结合了一个KNN分类器,从而能够充分利用微博序列的全局信息和每条微博的局部信息,提高了结果的准确率和召回率;三是半监督框架中添加了对数据进行规范化的模块完成去噪和数据规范处理操作,而且为了对命名实体结果进行优化,还增加了一个实体归一化模块,在修正命名实体结果的同时,获得共指关系集合为后续工作提供了便利。