论文部分内容阅读
近年来,随着自然语言处理的研究重点逐渐从词语和句子转向篇章,侧重于理解文本整体语义的篇章分析任务正得到越来越多的关注。篇章主次识别和篇章关系识别是篇章分析中两个重要的语义理解任务,分别通过识别出篇章单元之间的语义逻辑关系和主次核性关系来帮助理解文章的语义脉络。目前,绝大多数的篇章分析研究面向英文,中文篇章分析研究还处于初级阶段。因此,本文主要针对中文篇章主次和篇章关系的识别方法展开深入研究,主要研究内容包括以下三个方面:(1)基于文本匹配方法的篇章主次识别方法针对目前大部分工作没有考虑篇章主次语言特性的问题,本文提出了一个文本匹配网络用于识别中文篇章主次。首先,通过在编码器中结合双向长短时记忆网络(Bi-LSTM)和卷积神经网络(CNN)来同时捕获全局依赖信息和局部n-gram信息;然后,通过引入三种常见的文本匹配方法,即余弦相似度、双线性模型和单层神经网络来计算单元之间的相似度和交互信息;最后,通过在篇章单元和段落之间进行语义匹配来提供额外的高层语义线索。实验结果显示本文提出模型的性能优于多个基准模型。(2)基于句子级表示的隐式篇章关系识别方法目前,神经网络方法大部分仅仅模拟了人类的单程阅读过程,而篇章关系识别依赖于对文本的深入理解。因此,本文构建了一个三层注意力网络来同时模拟人类的双向阅读和重复阅读过程。首先,通过结合自注意力模型和交互注意力模型,在文本编码阶段就考虑到论元间的语义联系;其次,利用包含外部记忆的注意力层来模拟人类的重复阅读过程,在论元对记忆的引导下生成论元的最终精炼表示。实验结果显示本文提出模型的性能超过了多个基准模型。(3)基于主题级表示的隐式篇章关系识别方法目前,大多数篇章关系识别方法依赖于论元的句子级表示,在中文上性能不佳。针对此问题,本文尝试通过引入主题信息来提供额外的高层篇章线索,提出了一个基于门控卷积网络和简化神经主题模型的隐式篇章关系识别模型。首先,通过门控卷积网络编码器学习论元的句子级表示;其次,通过无监督学习同步训练一个简化神经主题模型来推理论元的潜在主题分布,并将其作为论元的主题级表示;最后,通过因子张量网络来捕获论元在句子层面和主题层面的交互,并且通过张量分解操作降低模型的计算复杂度。实验结果显示本文提出模型的性能超过了多个基准模型。本文针对中文微观篇章主次和篇章关系识别问题,提出了有效的解决方法,取得了良好的性能,将为中文微观篇章分析的进一步研究提供借鉴。