论文部分内容阅读
命名实体识别(Named Entity Recognition,NER)是自然语言处理(Natural Language Process,NLP)中的重要任务之一。通过识别文本中具有特定意思的实体及类别,例如识别文本中的人名、地名、专有术语等,来给下游的NLP任务提供精确的实体语义信息。当前在中文NER的研究中,常见的一种研究范式是将文本看成是一种序列形式的数据,输入到诸如RNN、LSTM等深度序列模型中,通过序列模型来提取文本中的语义信息,进而识别出文本当中的实体词。并在此基础上,衍生出通过加入文本的词性、文法等其他特征来进行数据增强,提高中文NER的效率。更为重要的,随着预训练模型的发展及在NER中的运用,预训练模型中的通用语义信息极大地丰富了中文NER模型的表征能力,大幅度提升了中文NER的效率。我们认为,中文NER问题可以借助辅助的预训练任务来提升效率,但中文NER问题本身,依然存在很大的研究空间。即:目前主流的中文NER研究范式,仍存在一些共性问题限制了中文NER的表现。第一个问题是字词间的长距离语义信息。对于中文来说,要理解字词的语义,除了字词本身语义外,还需要结合字词的上下文才能更好地理解该字词的语义。目前在中文NER的研究中是把文本基于序列形式建模,这种建模方式更多是关注于字词与其相邻字词间的语义信息,忽视了长距离上下文对当前字词理解的影响。第二个问题是语义特征与其他特征的交互。当前中文NER的数据增强手段,本质上是文本的语义特征与词性、文法等其他特征进行交互协作。当前交互协作的方式都较为粗糙,常见的都是将语义特征与其他特征,在同一维度上进行拼接。更为重要的,中文和英文在语言本身存在着很大的差别,很多应用在NER研究的数据增强方法,并不能很好地适配到中文NER研究中。近几年,图神经网络以其优越的性能得到人们的关注与重视。图神经网络通过捕捉数据构图中的拓扑结构特征,在半结构形式数据建模任务中有更好的表现。对于上述两个问题,本文从图神经网络角度出发,基于中文文本数据进行半结构化形式建模,提出一种基于图神经网络的中文NER研究模型。并在此基础上,提出一种适配该模型的特征协作交互机制。具体地,本文的研究内容分为两个部分:1.针对第一个问题,本文提出一种语义协作图网络结构模型(Lexicon Enhanced Collaborative Graph network,LEC-Net)。该模型一方面使用序列模型来提取文本中的语义特征,着重于捕捉文本的自身的语义信息。另一方面,基于图神经网络来对中文文本数据进行半结构化形式建模,提取文本数据中的图结构特征,着重于捕捉文本上下文信息,特别是长距离的上下文信息。2.针对第二个问题,本文基于LEC-Net提取到的语义特征和图结构特征,设计了一种语义特征和图结构特征的特征协作交互方法。该特征协作交互方法,可以充分利用字词的语义信息与字词上下文的关联信息,起到一种类似于数据增强的作用,从而提高该模型在中文NER中的表现。本文提出的模型分别在3个开源中文NER数据集上进行实验。与基准实验相比,本文提出的模型在实验中平均可达到约2%的提升,从而说明了该模型在中文NER研究中的有效性与可行性。更为重要的,在模型中避免使用预训练模型,从而回归到中文NER问题的核心本质,更好地说明图神经网络及特征交互协作方式在中文NLP处理中所起到的关键作用,为其他各类NLP理论与应用研究提供有价值的参考。