论文部分内容阅读
随着互联网的高速发展,爆发式增长的信息使自动文本摘要的深入研究成为必要需求。自动文本摘要作为一种减轻信息过载的技术,在实践中有着广泛的应用,如自动生成搜索引擎检索结果的快照、自动生成新闻文章和技术文章的摘要、自动写稿机器人等等。最早的自动文本摘要研究采用无监督技术,由于缺乏人类智能的必要监督,这些方法通常效果较差。20世纪90年代,随着机器学习技术的出现,研究者们提出了各种各样的方法,利用有监督机器学习技术提高自动文本摘要性能。虽然有监督方法通常比无监督方法具有更好的性能,但需要大量的人工参与来抽取特征。最近,深度学习模型在很多任务中都显示出了巨大的潜力并取得了很好的效果。深度学习至少有两方面的吸引力:第一,深入学习使研究者们从繁重的特征工程工作中解放出来,从而使得人们可以更快地构建系统应用。第二,深度学习模型善于学习有效的低维特征表达,一定程度上弥补了传统机器学习算法的不足。本学位论文展开了一系列的研究工作,探讨如何利用深度学习模型来提高多文档自动摘要的性能。同时,我们也提出了一种冗余性感知的句子回归框架来改进现有的句子回归框架。句子回归框架是抽取式文档摘要的常用框架之一,在很多数据集上都取得了不错的效果,所以被广泛应用于实际系统中。本学位论文的主要工作和创新性可以归纳为以下几个方面:(1)一个句子是否应该作为摘要取决于其重要性,而一个句子是否重要不仅依赖于其所表达的意思,也依赖于它和其他句子的语义关系,尤其是句子的上下文关系。本文提出了一种神经网络模型,利用句子的上下文关系来改进一般多文档自动摘要(Generic Multi-Document Summarization)的性能。大多数现有的多文档摘要研究都把主要精力花在建模句子的意思上。因为每个句子通常只表达一种观点或陈述一个事实,如果不知道其他相关句子中所反映的背景,可能会很难理解这个句子所表达的意思。句子的上下文关系指文档中的某一句话与其紧邻的前后文中的几句话的关系。本文提出了一种神经网络模型,通过利用句子的上下文关系来提高一般多文档自动摘要的性能。具体地,首先利用基于词汇级别注意力机制的卷积神经网络来构建句子的表示。然后,利用基于句子级别注意力机制的循环神经网络来构建上下文的表示。最后,通过同时学习句子及上下文的低维特征表示,以及一个句子和其上下文句子的语义相似度,本文提出的模型可以自动学习出有效的上下文特征来改进摘要的效果。此外,本文的模型通过引入词汇级别和句子级别的注意力机制,不但能提高自动文本摘要的性能,还能够自动识别出相对于当前句子,上下文中语义关系比较紧密的词汇和句子。本文在DUC 2001年、2002年、2004年的一般多文档自动摘要数据集上做了大量实验。实验结果表明本文所提出的模型在ROUGE指标上超过了现有的先进方法。(2)对于基于查询的多文档自动摘要(Query-focused Multi-Document Summarization)来说,一个文档句子是否应该包含在最终的摘要里不仅仅取决于这个句子的重要性,还取决于它与给定查询的相关程度。本文提出了一种神经网络模型,通过利用注意力机制来加强文档句子与查询之间相关性的建模,实现基于查询的多文档自动摘要。在DUC的基于查询的多文档自动摘要任务中,针对一个文档集往往给定了多个查询,根据这些查询来生成一个摘要,给定的多个查询通常是针对文档的不同方面。现有的研究往往直接估计一个文档句子与所有查询的总体相关度。但是事实上,这样是不合理的,因为一个句子一般来说都很短,仅仅表达了一个观点或者陈述了一个事实。换言之,一个句子通常只能够回答一个查询,建模它与所有查询的总体相关度往往会引入噪声导致估计不准确。针对此,本文提出了一种神经网络模型,通过建模句子与每一个查询的细粒度相关度来提高基于查询的多文档自动摘要的性能。具体地,首先利用卷积神经网络来构建文档句子的低维特征表示和查询句子的低维特征表示。然后,通过基于查询句子关系的注意力机制,使得在衡量文档句子与查询句子之间相关度的时候,能够更关注于那些与当前句子更相关的查询。这个过程模拟了人带着问题去阅读的行为习惯,当读到一句话时,人们会考虑它与给定的哪个查询比较相关。本文在DUC 2005年、2006年、2007年的基于查询的多文档自动摘要数据集上做了大量实验和分析。实验结果表明,本文提出的模型取得了不错的效果,超过了当前的先进方法。此外,根据我们提出的基于查询的注意力机制,本文的模型不仅仅能够衡量一个句子与给定查询的相关度,还能够识别出这个句子回答了哪个查询。(3)句子回归框架(Sentence Regression Framework)是抽取式摘要的常用框架之一。现有句子回归框架往往把建模句子的重要性和句子间的冗余性放在两个独立的过程中,忽略了这两者之间的关系。针对此,本文提出了一种新的冗余性感知的句子回归框架。句子回归框架是利用回归模型实现自动摘要的框架,其通常做法是先通过一个打分函数或者模型f(St)来给每一个句子St打一个分,然后在产生最终摘要的时候,再综合考虑每一个句子的得分以及被选入摘要的句子之间的冗余性。本文提出了一种新的框架来同时建模句子的重要性和冗余性。与传统框架不同,新框架直接衡量一个句子St在给定当前的摘要句子集合Ψ的情况下的相对重要性。具体实现过程中,本文提出一种回归模型来拟合基于人工摘要给出的句子的相对得分。新框架相比于传统框架有三个优点。第一,新框架具有冗余性感知能力,不需要将句子的重要性和冗余性放在两个过程中建模。第二,新框架相对于传统框架具有更高的上界,这意味着基于新框架实现的模型有更多的提升空间。第三,新框架没有需要手工调节的参数,这在实践应用中是非常方便的。最终,本文通过大量实验证明了基于新框架的句子回归模型能够超越传统的回归模型。