论文部分内容阅读
随着互联网的迅猛发展,各类型文本数据剧增,给用户带来海量信息,也带来了信息过载问题,文本信息的数量已经远远超出了人工处理的极限。自动文本摘要可以通过自动地分析给定的一篇文档或多篇文档,提炼、总结其中的要点信息,最终输出一篇长度较短、可读性良好的摘要,这样用户只需阅读文档的摘要即可快速获取主要信息,节省大量阅读时间,从而提升信息系统的信息服务能力。本文旨在通过神经网络建模的方法,根据序列到序列的框架分两阶段抽取摘要,即首先利用编码器获取文本内容,通过大量数据训练提取文本特征,并构造注意力机制模型,提高模型对文本信息的理解,然后利用解码器抽取句子,形成摘要。本文主要完成了以下几个方面的工作:(1)提出了基于自交互注意力机制的自动文本摘要模型(SIAS模型)。本文利用神经网络模型中的编码器-解码器结构构造模型,分两阶段对文档进行摘要的抽取:首先利用编码器对文档内容进行编码,挖掘、提取文本特征,提炼文档所包含的信息;然后运用解码器对提取到的这些特征和信息进行筛选,抽取重要的、含有显著信息的句子作为摘要。为了获取更加丰富的文档信息,我们通过分层结构构造文档的向量表示,并在从词汇表示构造句子表示的过程中使用了注意力机制,增加对句子内部单词之间关系的提取,进而得到更好的文档表示,为解码器抽取重要句子提供依据。(2)提出了基于注意力编码器的自动文本摘要模型(AES模型)。本文提出针对编码器进行改进,提高编码器对文档信息的提取和理解。在由词向量获取句子向量过程中,采用了更便于训练并且能够提取多维度特征的卷积神经网络。通过注意力机制对句子级别的信息交互进行分析,来获取不同句子之间的交互信息,发现它们之间的联系,理解其含义并区分重要程度。我们利用单向循环神经网络构造文档编码器,从而得到Uni-AES模型;更进一步,我们考虑到双向循环神经网络可以把一个句子与其周围的句子联系起来,能够获取文本的更多特征,于是我们利用双向循环神经网络构造了双向注意力编码器,得到Bi-AES模型。为了验证本文提出的模型的有效性,我们在由CNN新闻构造的公开数据集上对模型进行了实验验证和分析,实验结果表明:(1)SIAS模型对短文档的自动摘要有较为明显的提升作用,而且当生成的摘要较短时,效果比较突出,这说明了SIAS模型对文档中关键词汇的提取能较强。(2)AES模型对较短文档的摘要效果提升明显,比SIAS模型更加突出,尤其是Bi-AES模型,就ROUGE-1、ROUGE-2、ROUGE-3、ROUGE-4、ROUGE-L评分而言,最高分别提升了7.41%、23.68%、13.03%、6.41%、7.59%。当生成的摘要较长时能够获得更好的摘要效果,抽取出更加多样化的信息。这说明句子之间的相互联系,能够帮助模型更全面地理解文档含义,而我们的注意力机制也起到了挖掘句子之间关系的作用。