论文部分内容阅读
进入二十一世纪,互联网上的文本信息呈现爆炸式增长,为了在这种海量信息中解决我们关心的问题,自然语言处理的研究应运而生。自然语言处理是一系列任务的统称,包括但不限于机器翻译、情感分析等。这些高级任务是以一系列基础任务作为支撑的,命名实体识别(NER)就是其中之一。因此解决命名实体识别任务的好坏,直接影响到解决后续任务的质量。命名实体识别指的是对文本中的实体进行识别,例如人名、地名、机构名等实体,将实体识别出来之后,可以交给后续任务进行进一步处理例如实体消歧和实体链接等。发现这些实体并且准确的定位实体的边界就是命名实体识别的任务。命名实体识别任务起源于英文,英文单词与单词之间有空格分割、词汇有前缀和后缀特征,这些共同的特征造成英文命名实体识别任务较为容易。早在几年前,在基准测试集上,英文命名实体识别的精确率和召回率已经达到了百分之九十以上。与之相比,中文的命名实体识别则较为困难,首先中文实体在识别之前,通常需要先进行分词,而分词的效果直接影响到命名实体识别的结果。其次,中文的词一般只由少数几个字符组成,这就造成了中文不像英文一样可以很容易的利用CNN或LSTM提取词的字符特征。因此,中文上的命名实体识别更为困难。本文着重对命名实体识别的关键问题进行分析,在此基础上探讨如何对中文命名实体识别的技术进行改进并提出了新的命名实体识别模型。论文主要包含以下工作:(1)使用word2vec模型在中文Giga-Word语料库上预训练得到词向量和字符向量。(2)提出了一种新的命名实体识别模型。这个模型以预训练的词向量和字向量作为输入。模型采用两个LSTM分别对预训练的词向量和字向量进行处理,并将处理词的LSTM的输出通过高速公路网络层融入到处理字向量的LSTM的计算过程中。通过这种将所有相关的词考虑在内的方式,减少了分词错误带来的影响。(3)将命名实体识别与语言模型联合训练,通过highway-net将获取到的特征转换到不同的语义空间,避免了任务之间的相互干扰,提高NER的结果。实验在多个数据集上进行,结果表明,在不使用其它外部标记数据或额外注释的情况下模型能取得与当前最好结果相当的水平。