论文部分内容阅读
命名实体识别的主要任务是将文本中的人名、地名、机构名等有特殊意义的实体识别出来,作为自然语言处理领域的基础任务之一,命名实体识别几十年来始终是研究热点之一。随着基于统计的机器学习方法的发展,在训练语料中出现过的实体的识别效果已经很好,但未登陆词的识别仍是命名实体识别的难点之一。针对这个问题,我们首先对传统的条件随机场(CRF,Conditional Random Fields)模型融入词表的方式进行研究,希望使CRF模型可以识别出词表中的实体,并使用维基词表在通用领域进行了实验。之后,我们注意到了近年来深度神经网络的迅猛发展,其中循环神经网络(RNN,Recurrent Neural Network)和RNN的一个改进LSTM(LongShort Term Memory)在自然语言处理领域有着十分优秀的表现。LSTM在训练中理论上可以使用全部的前文信息,而双向LSTM可以使用整个序列的信息。我们接下来使用双向LSTM模型进行了命名实体识别的识别器的设计,其中引入了Dropout、转移代价计算等各种技术,并按照该模型使用Python Theano实现了一个命名实体识别工具。我们使用这个工具在通用领域做了大量的实验,证明了双向LSTM模型在命名实体识别任务中效果远远优于CRF模型,在多组实验中提升了2%左右的F值。此外,我们还利用深度神经网络的预训练技巧在双向LSTM模型中添加了更多的外部信息,实验表明也有一定的效果。最后,我们利用前面提出的CRF模型和LSTM模型对医疗领域的语料进行了实验。CRF加入词表的实验对于识别出词表中的实体有效果,双向LSTM模型与CRF模型的效果相比仍有一定的提升。双向LSTM模型加入风格不一致的开放领域文本的预训练向量后,虽然牺牲了一定的性能,但能够提升模型对于非专业医疗语料实体的识别效果。