论文部分内容阅读
长期以来,命名实体识别任务一直是自然语言处理领域一项非常基础而极具挑战的任务。命名实体识别的目标是从文本序列中识别实体,并将实体分类到预定义的类别当中,如:人(Person)、组织(Organization)、地点(Location)等。命名实体识别是许多高级自然语言处理任务的基础。关系抽取、问答系统、自动摘要、知识库构建等都离不开对命名实体的研究。因此研究命名实体识别具有非常现实的意义,本文主要研究工作如下:基于笔画的中文字嵌入向量本文在word2vec模型上进行改进,通过挖掘更深层次词内部的语义和形态学特征来改进中文词嵌入向量模型。受英文子词模型启发,本文将中文汉字划分成更细粒度的笔画序列,采用n-gram和LSTM捕获汉字内部结构特征,引入汉字书写的形态学特征,提高模型对表意文字的表达能力。本文在中文维基百科和中文电子病历数据集上测试,试验结果表明模型训练的字嵌入向量要优于word2vec、GloVe、CWE等主流模型的结果。基于多任务学习的中文命名实体识别目前基于多任务学习的命名实体识别仍有待研究,本文设计了一种分层的多任务学习模型,模型将中文分词作为辅助任务进一步提升实体预测精度。本文进一步将语言模型的目标函数作为辅助任务加入命名实体识别训练过程:为每个输入增加两个输出层,预测其前一个字符和后一个字符。该方法在不需要增加训练样本的情况下,辅助模型学习到更多语义特征。此外,本文针对中文实体边界预测困难的问题,在命名实体识别模型中引入注意力机制,将模型注意力集中到实体及其周围区域,使得模型更加关注序列的局部特征,进一步提升了命名实体识别模型的预测精度。最后本文结合以上方法设计了统一中文命名实体识别框架。在中文医疗电子病历和中社交媒体数据集上进行测试,验证了以上方法的有效性。该模型在中文医疗电子病历数据集(CCKS-NER 2017)上的严格匹配F1达到了90.65%,较基准模型提高1.70%,这是目前单模型取得的最好结果。