论文部分内容阅读
自然语言中的命题附加语义主要指否定语义和不确定语义。其中,否定语义由否定运算符对命题自身或对与其相关的某方面语义进行了反转;不确定语义指人们对事物的表述处于一种模糊状态,无法给出确定的边界,介于否定性和确定性之间。命题附加语义的作用域识别研究旨在识别表示否定与不确定语义的关键词及其语义在句子中的作用范围,作用域通常是句子内部的某一连续片段。该研究对自然语言处理的下游应用,如信息抽取、信息检索、情感分析等,都具有十分重要的意义。现有的命题附加语义作用域识别模型存在忽略句子上下文信息、无法满足领域适应性等缺陷,此外,目前面向中文的命题附加语义作用域识别模型的性能较低,缺乏有效的神经网络模型。针对上述问题,本文提出了基于神经网络的的中英文命题附加语义作用域识别方法。主要研究内容包括以下三个方面:(1)基于上下文表示的命题附加语义作用域识别现有的命题附加语义作用域识别模型尚未充分利用句子上下文信息进行建模,基于此,本文集成了双向长短期记忆(Bi-directional Long-Short Term Memory:BiLSTM)神经网络和条件随机场(Conditional Random Field:CRF)共同进行建模,其中,LSTM网络能够借助前向与后向序列学习上下文特征,同时还借助CRF层学习输出标签之间的依赖关系。另一方面,现有方法往往忽略了领域适应性问题,因此,本文采用生成对抗网络学习不同领域之间相似性和区别性表示。本文在BioScope英文语料库上验证了该模型的有效性,其中,否定和不确定作用域识别上的准确率指标分别提升了4.73%和1.68%。同时,生成对抗网络在跨领域识别上也取得了优越效果,在各个子任务上的绝对性能平均提升了2.65%(否定)和2.44%(不确定)。(2)基于神经网络的中文命题附加语义作用域识别目前,面向中文的命题附加语义作用域识别研究目前比较匮乏。现有研究大多是基于传统特征工程方法,实验性能较低且可扩展性差。本文融合双向长短期记忆网络(BiLSTM)和卷积神经网络(Convolutional Neural Networks:CNN),既能学习上下文之间的特性,同时也能学习序列中的局部信息。面向中文的相关研究进展缓慢的另一个重要原因是中文语料资源的缺乏,因此,本文采用生成对抗网络进行跨语言学习,能够对源语言和目标语言进行语义映射,从而缓解由语言分布不同造成的特征差异。本文在中文命题附加语义识别语料库CNeSp上,对否定与不确定作用域识别的准确率分别达到80.89%和80.04%,比目前最好的方法分别提升了24.82%和30.40%。(3)中英文命题附加语义作用域识别系统实现和展示本文针对上述两项研究内容(英文和中文命题附加语义作用域识别)分别进行了详细研究,分别在英文和中文数据集上对所提出的模型进行实验验证,结果表明本文所提出的方法在中英文命题附加语义作用域识别上具有很好的效果。该研究成果对相关自然语言信息抽取工作具有一定的帮助和参考价值。此外,为了能够将研究内容形象化地进行展示,本文实现了中英文命题附加语义作用域识别的预测系统,将研究落实到应用。总之,本文致力于命题附加语义作用域识别研究,一方面提出了有效方法来提高相关任务的性能,一方面尝试推动该研究在中文上的进展。期待本文取得的初步成果能够对该领域的相关研究产生一定的参考价值,促进自然语言深层理解技术的发展。