论文部分内容阅读
随着信息技术的高速发展,爆炸式增长的信息对人们处理信息的技术提出了更高的要求,现在技术无法有效满足信息利用的时效性。自动文本摘要作为一种减轻信息过载、提高信息利用效率的技术,在实践中有着广泛的应用,如自动生成新闻文章和技术文章的标题、摘要,自动生成搜索引擎检索结果的概述,写稿机器人等。在上个世纪90年代以前,自动文本摘要以无监督技术为主,由于缺乏有效的监督机制,并受限于当时的计算资源,这些方法通常效果较差。20世纪90年代,随着机器学习技术的出现,通过标签数据对模型学习过程进行监督,相比于无监督技术,有监督的方法通常具有更好的性能,但该方法需要大量的人工参与构建特征。近来,随着计算机性能的大幅提升,深度学习技术在诸多任务中均取得了非常好的效果,尤其是在非结构化数据处理上,如自然语言、图像、音视频等数据类型。相比于传统机器学习技术,深度学习技术具有两大优势:第一,深度学习技术可以自动提取特征,减轻研究者构建特征的工作,可以使得研究者更快地构建系统应用;第二,深度学习技术善于学习数据的低维特征表达,如词向量Glove、Word2vec等,这在一定程度上弥补了传统机器学习算法的不足。从生成模式上看,自动文本摘要任务可以划分为两类,抽取式与生成式。抽取式摘要是通过衡量原文中句子的重要性,抽取某些句子构建摘要,而生成式摘要则是通过对原文进行语义理解,生成基于原文内容浓缩后的摘要。相比于抽取式,生成式无疑更符合和接近人类摘要的过程,但是生成式摘要技术更为复杂,难度更高。本文针对生成式摘要问题展开了一系列的研究工作,探讨如何利用深度学习模型来提高生成式文本自动摘要的性能。另外,从功能上将,关键词(短语)与文本摘要作用相似,都是对原文内容的概括表达,所以本文将关键词视为一种特殊的文本摘要形式。本文的研究内容主要包含两个方面,一是对生成式关键词自动生成的研究,另一个则是对生成式文本摘要自动生成的研究。本文的主要工作和创新性可以归纳为以下几个方面:(1)针对生成式关键词自动生成任务,本文提出了一种利用卷积神经网络来建模文本序列上下文关系的神经网络模型,以提高关键词自动生成的效率。对于生成式关键词自动生成任务,有研究者提出利用循环神经网络模型,对文本序列上下文关系进行建模,这种方式虽然可以对原文内容的语义理解进行较好的表达,但是这种表达方式效率相对低下。因为循环神经网络在每个时间步的计算均依赖于上一个时间步的结果,计算机无法并行处理。文本采用卷积神经网络替换循环神经网络,虽然卷积神经网络在序列模型中应用较少,但是其可以为固定长度的上下文生成向量表示,通过不断叠加卷积层,也能起到建模文本序列上下文关系的作用。具体而言,就是本文使用完全卷积的Seq2seq(Sequence-to-Sequence)模型结构,即编码器和解码器部分均是卷积神经网络。另外,在模型结构中加入注意力机制,用于加强原文和摘要之间联系。针对OOV(Out of Vocabulary)问题,引入复制机制,用于生成不在词表中的单词。(2)针对生成式关键词自动生成任务,文本提出了一种利用覆盖机制来建模所生成关键词之间关系的神经网络模型,以提高关键词自动生成的精度。在上一部分,本文采用完全卷积的Seq2seq结构,着重于提升关键词自动生成的效率。为提高模型精度,本部分重新以循环神经网络作为Seq2seq模型的编码基础,同样采用复制机制来应对OOV问题。除此之外,模型还引入了覆盖机制,用于对所生成的关键词之间的关系进行建模,能够使得所生成的关键词既能较为全面地反映原文中的关键信息,又能使得关键词之间具有较小的信息冗余。通过采用循环神经网络、复制机制,覆盖机制等措施,模型在若干实验上均取得了更为优异的表现。(3)针对中长文生成式自动摘要任务,本文提出了一种利用层次注意力机制建模文本位置信息的神经网络模型,以提高中长文自动摘要任务的精度。目前,基于Seq2seq的生成式文本摘要技术一般只适用于短文本的处理,对于较长输入文本的处理能力十分有限。原因是文本输入序列过长会导致长距离依赖问题,编码器无法准确表达输入本文的语义信息。在实际的自然语言处理应用中,对短文本进行摘要的意义十分有限,用户更关心长文本摘要的能力,以帮助他们提高阅读和获取信息的效率。注意力机制是解决长文本无法有效编码问题的关键技术之一,本文利用位置信息对现有注意力机制进行改进,提出了一种基于层次注意力机制的文本摘要模型,这种模型能够对文章不同位置的文本进行区别化处理。(4)针对中长文自动摘要任务,本文提出了一种利用生成式框架来做抽取式摘要任务的神经网络模型,以提高抽取式摘要任务的精度。最近几年,随着深度学习的发展,语义理解技术得到了迅猛的提升,但是不可否认的是,中长文自动摘要技术仍有很长的路要走。在中长文自动摘要任务上,与抽取式技术相比,生成式摘要模型存在计算资源消耗大、时间开销多、精度无法令人满意等问题。传统的抽取式方法大多利用优化方法对文本中出现的关键句子进行搜索,通过句子重要度排名来构建摘要。这种方式并没有有效的利用原文语义信息,本文尝试利用Seq2seq生成式框架对原文和摘要之间的语义关系进行建模,然后采用分类模型,从原文中抽取重要句生成摘要。