论文部分内容阅读
近年来,随着文本分析需求的增长,命名实体识别(Named Entity recognition,NER)研究蓬勃发展,命名实体识别任务的效果有了很大的提升,同时命名实体识别处理的文本类型和领域也越来越丰富。在中文命名实体识别领域,仍存在着一些待解决的问题。命名实体识别系统的自适应性不强,将训练好的模型应用到不同领域、不同类型的文本上会产生很大的效果落差;命名实体识别效果过分依赖研究者对特征的选择和设计,对新类型、新领域文本的命名实体识别研究又将花费巨大的精力进行特征工程(Feature Engineering);对于一些较长跨度的实体,如“长机构名”的实体识别困难。 在基于统计学习的命名实体识别方法中,需要从训练语料和识别模型两个方面去考虑处理这些问题。在训练语料构建方面,需要考虑如何有效地构建实体识别语料库,既能满足新的文本领域的训练质量和规模需求,同时要尽量减少人力付出,基于此本文探索了众包构建语料库的方法。在实体识别模型方面,目前深度学习的出现为实体识别研究带来了新思路。本论文探索如何将深度学习应用到命名实体识别任务中,利用深度学习自动学习复杂特征的优势,避免命名实体识别研究者陷入无尽的特征工程中。本论文的主要工作和创新成果如下: (1)研究众包语料库构建方法,提出一种基于用户标注历史的众包任务分配算法与众包结果选择算法。随着命名实体识别在不同领域、不同类型文本上应用需求的增多,构建适量的命名实体语料库成为提高新领域、新类型文本命名实体识别效果的有效方法。本文根据命名实体任务标注的特点,提出了衡量用户标注质量的用户标注权威度和用户标注遗漏率。结合这两个指标,本文提出了期望阈值众包任务分配算法和Biased LCA(Latent Credibility Analysis)众包结果选择算法。实验结果表明,在相同标注人力成本的情况下,文本提出的众包语料库构建方法可以得到更高质量的命名实体语料库。 (2)提出一种基于层叠双向LSTM(Long Short Term Memory)模型的命名实体识别方法。LSTM是循环神经网络(recurrent neural network,RNN)的一个变体,克服了RNN对长距离信息梯度消失与梯度爆炸的问题,能够很好地捕捉长距离特征信息。与此同时,LSTM同样能够自动学习复杂特征,使命名实体识别研究者避免了无尽的特征工程。该模型具有很好的自适应性。实验结果表明层叠双向LSTM的命名实体识别模型可以利用很少的特征达到不错的效果,超过了同等条件下条件随机场(Conditional random fields,CRF)模型的识别效果。