论文部分内容阅读
命名实体识别(Name Entity Recognition,NER)是自然语言处理的基础任务,目的是在未处理过的原始文本中标注出所需的具有特定意义的实体。命名实体识别是将非结构化的文本数据转换为结构化数据的关键步骤和技术手段之一,在自动问答、信息检索和关系抽取等任务中都有关键作用。因此对命名实体识别的研究有着重要的意义。随着深度学习的发展,英文命名实体识别技术近几年有着显著的进步。但中文有着自身的特点,相对于英文文本也更为复杂。因此,中文命名实体识别还有着一些尚未解决的难点,其主要包括为:(1)中文句式结构复杂且经常存在一词多义的情况,同样的汉字和词语在不同位置和语句中有不同的意义,现有的以英文命名实体识别模型为基础所改进的中文命名实体识别模型无法有效的针对全局上下文进行建模和特征提取,从而对同型不同义的词区分。(2)中文文本缺少词分隔符,基于词级别输入的模型需要解决中文分词问题,基于字级别的输入则会缺少单词的边界信息及词义信息,这增加实体识别的难度。(3)在网络文本为主的一些语料数据中,存在着一些未登录词,这给命名实体识别任务增加了不小难度。此外,目前的命名实体识别模型在解码层大多使用CRF机器学习算法,虽然能解决部分语法问题但特征提取效果差,维特比算法执行效率低。鉴于中文命名实体识别任务的上述难点,本文将针对中文语言自身的特性,提出一种混合神经网络中文命名实体识别模型。其没有使用传统的时序模型进行建模,而是将所有输入通过自注意力进行特征提取,并提出了基于多元卷积解码与二分类模型训练方法。同时,提出了以“位置意识传播”为基础的字编码方法和中文分词联合学习模型。本文的主要创新点及贡献有:1.提出一种基于完全自注意力机制的编码方式。每一个字或词的向量表示都经过注意力机制关联到整个句子,通过对所有位置上的字或词打分决定权重的分配,得到句子中最需要被关注的位置信息。解决了目前方法使用时序模型的弊端,使每个位置的编码向量都融合了全句的上下文信息,有效解决了汉字和词语的歧义问题。其相对时序神经网络模型参数更少,推断速度更快。2.提出一种多元卷积解码方式,该方法可以在解码过程中有效的关注到中文命名实体识别的特性,通过n-gram的二维卷积解码,将当前位置词与周围词相关联,提升解码效率的同时对前后单词的逻辑进行特征抽取。并采用与实体类别相同卷积核个数,能更有效的针对当前的命名实体识别任务从标签维度上提取有效特征。并且在训练模型时对每个卷积核使用二分类判断,更有效提升模型的训练针对性。3.针对基于以“汉字”为序列输入的命名实体识别模型,提出了一种基于“位置意识传播”的字编码机制,并采用了高斯核函数对其进行实现。在训练阶段与分词任务进行联合学习。该方法弥补了缺少词边界信息的问题。本文基于1998年人民日报语料PFR,微软提供的语料MSRA以及众包生成的某机构网页信息内容语料Boyue进行中文命名实体识别测评,对本文提出的模型进行框架和参数优化,以及与多个机器学习模型和近些年取得较好效果的中文命名实体模型进行对比实验。试验结果表明,本文提出的方法行之有效,相比一些现有的中文命名实体识别方法在一些方面有所提升。