论文部分内容阅读
信息时代,网络数据资源,尤其是文本数据,呈指数倍增长。研究如何利用计算机从文本中抽取、压缩信息,帮助用户快速准确地掌握信息的关键主体,节省用户的阅读成本,即文本自动摘要技术,在当下显得格外重要。文本自动摘要是自然语言处理中的经典问题。研究方法可分为两类:抽取式文本摘要和生成式文本摘要。抽取式文本摘要,即提取原文本的关键片段,拼接产生关于原文的摘要。而生成式文本摘要的目的是研究如何生成接近人类书写风格的摘要内容,这是一件困难的事情。随着序列到序列模型框架的提出并被广泛地应用到如机器翻译、对话系统等各类自然语言处理任务中。该方法也为文本自动摘要提供了全新的研究思路。然而,目前序列到序列模型在文本摘要任务的应用中仍然存在着诸多问题,本文针对这些问题对算法进行改进,从而提高模型生成摘要的质量。主要工作包括如下几方面:针对生成式文本摘要任务,本文构建了一个基于序列到序列的基准文摘模型。其以循环神经单元作为编码、解码器,且包含注意力机制;针对摘要中的未登录词(Out of Vocabulary,OOV)问题,实现了指针-复制网络;在解码过程,应用了集束搜寻算法,从而快速生成高质量的摘要。针对基准模型在训练过程中,因语料的词频不均而导致的训练不均衡问题,本文提出了基于多维特征优化的文本摘要模型。在模型的输入端,构建了多维特征编码器,对原文的多种语言学特征进行编码,从而提高模型输入信息的鲁棒性。在输出端,利用词焦点损失函数计算解码器预测的标签与真实标签的损失值,从而改善类别不均衡问题。在TTNews和LCSTS两个中文数据集上的实验结果表明,基于多维特征优化的文摘模型能在仅增加少量模型参数的情况下,提升模型生成摘要的质量。基准模型的对齐注意力机制是为解决机器翻译任务的原译文对齐问题而提出的。但是,它不符合文本摘要任务对原文重要信息概括的要求。为此,本文分别基于门控循环单元和多层膨胀门控卷积网络,构建一种新型的全局注意力机制。其能保证解码时,生成的注意力分布能反映单词在原文中的重要程度,帮助模型更好地适应摘要任务。在LCSTS和English Gigaword中英文数据集上的对比实验结果表明,改进模型的注意力分布比基准模型更广泛,可涵盖更多的源信息,生成的文摘质量也更高。