论文部分内容阅读
近年来,自然语言处理领域的研究重心逐渐从分析文本中的字、词和句,转移到段落和篇章的分析研究。篇章分析是自然语言理解的重要基础之一,受到越来越多研究者的关注。篇章分析通常包含了三个子任务:1)篇章结构构建,用于构建篇章的结构框架;2)篇章主次识别,用于识别论元之间的主次核性关系;3)篇章关系识别,用于识别论元之间的语义逻辑关系。通过篇章分析构建完整篇章结构树能帮助机器理解文章的语义脉络。目前,中文篇章分析主要聚焦于微观层面的研究(即中文微观篇章分析),是对一个段落内的子句或句子间的结构关系和语义关系进行识别。英文篇章分析相关研究已取得较好的进展,而中文微观篇章分析研究还处于起步阶段。因此,本文针对中文微观篇章分析中的三个子任务分别展开深入研究,主要研究内容包括以下三个方面:(1)微观篇章结构构建方法研究在研究现有微观篇章结构构建方法的基础上,针对采用Shift-Reduce算法在构建篇章结构时存在错误累计及连接词不利影响问题,本文提出结合张量转换网络,采用多阶段策略及句内连接词删除机制构建篇章结构。首先,结合双向长短时记忆网络和注意力机制对论元编码,采用张量转换网络捕获论元之间的语义联系;其次,针对Shift-Reduce算法错误累计问题,提出先构建句内子树,再构建句间结构树的多阶段策略;最后,针对显式连接词对Shift-Reduce动作预测影响较大问题,提出句内连接词删除机制。实验结果表明,本文提出的方法性能较基准系统有明显提升。(2)微观篇章主次识别方法研究在研究现有微观篇章主次识别方法的基础上,针对现有模型易将语义相似度较高的非多核关系误识别为多核关系和偏向于将更长的论元识别为核心论元的问题,本文提出采用门控记忆网络进行篇章主次识别。首先,通过双向长短时记忆网络捕获论元的全局依赖信息,通过卷积神经网络捕获论元的局部n-gram信息,对论元进行编码;其次,融合两个论元信息并通过sigmoid函数计算得到一个门控单元;最后,使用该门控单元捕获各个论元相对于整体信息来说更重要的特征表示,从而识别出核心论元。实验结果表明,本文提出的门控记忆网络模型性能超过了多个基准模型。(3)微观隐式篇章关系识别方法研究中文微观篇章关系识别就是识别论元之间的语义逻辑关系。微观显式篇章关系识别已经达到了较好的准确率,但对于隐式关系的识别一直是一个难点任务。本文针对中文隐式篇章关系样本少,易造成过拟合的问题,提出了一个结合主动学习和多任务学习来间接扩充隐式篇章关系训练数据的隐式篇章关系识别方法,旨在增强训练数据的同时尽量少引入伪隐式篇章关系数据中的噪声。首先,基于BERT模型,使用主动学习方法利用分类不确定性来选择部分显式篇章关系样本;然后,移除显式篇章关系样本中的显式连接词作为伪隐式篇章关系样本;最后,采用多任务学习方法使伪隐式篇章关系数据有助于隐式篇章关系识别。实验结果表明,本文提出的方法性能优于多个基准模型。本文针对中文微观篇章分析的三个子任务——篇章结构构建、篇章主次识别和隐式篇章关系识别,分别提出了不同的有效解决方法,并取得了较好的性能,为进一步研究中文微观篇章分析打下基础。