基于深度序列模型的文本摘要生成技术研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:DIWUTANG
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的高速发展,爆炸式增长的信息对人们处理信息的技术提出了更高的要求,现在技术无法有效满足信息利用的时效性。自动文本摘要作为一种减轻信息过载、提高信息利用效率的技术,在实践中有着广泛的应用,如自动生成新闻文章和技术文章的标题、摘要,自动生成搜索引擎检索结果的概述,写稿机器人等。在上个世纪90年代以前,自动文本摘要以无监督技术为主,由于缺乏有效的监督机制,并受限于当时的计算资源,这些方法通常效果较差。20世纪90年代,随着机器学习技术的出现,通过标签数据对模型学习过程进行监督,相比于无监督技术,有监督的方法通常具有更好的性能,但该方法需要大量的人工参与构建特征。近来,随着计算机性能的大幅提升,深度学习技术在诸多任务中均取得了非常好的效果,尤其是在非结构化数据处理上,如自然语言、图像、音视频等数据类型。相比于传统机器学习技术,深度学习技术具有两大优势:第一,深度学习技术可以自动提取特征,减轻研究者构建特征的工作,可以使得研究者更快地构建系统应用;第二,深度学习技术善于学习数据的低维特征表达,如词向量Glove、Word2vec等,这在一定程度上弥补了传统机器学习算法的不足。从生成模式上看,自动文本摘要任务可以划分为两类,抽取式与生成式。抽取式摘要是通过衡量原文中句子的重要性,抽取某些句子构建摘要,而生成式摘要则是通过对原文进行语义理解,生成基于原文内容浓缩后的摘要。相比于抽取式,生成式无疑更符合和接近人类摘要的过程,但是生成式摘要技术更为复杂,难度更高。本文针对生成式摘要问题展开了一系列的研究工作,探讨如何利用深度学习模型来提高生成式文本自动摘要的性能。另外,从功能上将,关键词(短语)与文本摘要作用相似,都是对原文内容的概括表达,所以本文将关键词视为一种特殊的文本摘要形式。本文的研究内容主要包含两个方面,一是对生成式关键词自动生成的研究,另一个则是对生成式文本摘要自动生成的研究。本文的主要工作和创新性可以归纳为以下几个方面:(1)针对生成式关键词自动生成任务,本文提出了一种利用卷积神经网络来建模文本序列上下文关系的神经网络模型,以提高关键词自动生成的效率。对于生成式关键词自动生成任务,有研究者提出利用循环神经网络模型,对文本序列上下文关系进行建模,这种方式虽然可以对原文内容的语义理解进行较好的表达,但是这种表达方式效率相对低下。因为循环神经网络在每个时间步的计算均依赖于上一个时间步的结果,计算机无法并行处理。文本采用卷积神经网络替换循环神经网络,虽然卷积神经网络在序列模型中应用较少,但是其可以为固定长度的上下文生成向量表示,通过不断叠加卷积层,也能起到建模文本序列上下文关系的作用。具体而言,就是本文使用完全卷积的Seq2seq(Sequence-to-Sequence)模型结构,即编码器和解码器部分均是卷积神经网络。另外,在模型结构中加入注意力机制,用于加强原文和摘要之间联系。针对OOV(Out of Vocabulary)问题,引入复制机制,用于生成不在词表中的单词。(2)针对生成式关键词自动生成任务,文本提出了一种利用覆盖机制来建模所生成关键词之间关系的神经网络模型,以提高关键词自动生成的精度。在上一部分,本文采用完全卷积的Seq2seq结构,着重于提升关键词自动生成的效率。为提高模型精度,本部分重新以循环神经网络作为Seq2seq模型的编码基础,同样采用复制机制来应对OOV问题。除此之外,模型还引入了覆盖机制,用于对所生成的关键词之间的关系进行建模,能够使得所生成的关键词既能较为全面地反映原文中的关键信息,又能使得关键词之间具有较小的信息冗余。通过采用循环神经网络、复制机制,覆盖机制等措施,模型在若干实验上均取得了更为优异的表现。(3)针对中长文生成式自动摘要任务,本文提出了一种利用层次注意力机制建模文本位置信息的神经网络模型,以提高中长文自动摘要任务的精度。目前,基于Seq2seq的生成式文本摘要技术一般只适用于短文本的处理,对于较长输入文本的处理能力十分有限。原因是文本输入序列过长会导致长距离依赖问题,编码器无法准确表达输入本文的语义信息。在实际的自然语言处理应用中,对短文本进行摘要的意义十分有限,用户更关心长文本摘要的能力,以帮助他们提高阅读和获取信息的效率。注意力机制是解决长文本无法有效编码问题的关键技术之一,本文利用位置信息对现有注意力机制进行改进,提出了一种基于层次注意力机制的文本摘要模型,这种模型能够对文章不同位置的文本进行区别化处理。(4)针对中长文自动摘要任务,本文提出了一种利用生成式框架来做抽取式摘要任务的神经网络模型,以提高抽取式摘要任务的精度。最近几年,随着深度学习的发展,语义理解技术得到了迅猛的提升,但是不可否认的是,中长文自动摘要技术仍有很长的路要走。在中长文自动摘要任务上,与抽取式技术相比,生成式摘要模型存在计算资源消耗大、时间开销多、精度无法令人满意等问题。传统的抽取式方法大多利用优化方法对文本中出现的关键句子进行搜索,通过句子重要度排名来构建摘要。这种方式并没有有效的利用原文语义信息,本文尝试利用Seq2seq生成式框架对原文和摘要之间的语义关系进行建模,然后采用分类模型,从原文中抽取重要句生成摘要。
其他文献
云计算技术在军事、政府、企业和个人等领域取得了越来越广泛的应用,但伴随着频频发生的云数据泄露事件,其安全问题也逐渐凸显。由于用户失去了对外包至云端的数据的直接物理控制权,同时又不愿意完全信任云服务提供商,因此数据的安全和隐私问题就成了用户在使用云服务时的重要顾虑。在上传数据前使用传统的对称或非对称加密算法加密数据可以有效保护数据的机密性,但无法满足灵活、高效地共享和管理数据的需求。属性基加密作为一
区块链是在分散对等的协作主体之间就共同关注的数字证据达成共识,并在此基础上开展合作的分布式存证机制,具有多中心、防篡改、可追溯等基本特性,能够以低成本、高效率的方式为不具备信任关系的各利益主体构建信任,并促成群体之间的高效协作。区块链技术不仅能够以分布式账本的形式对金融行业发挥重要作用,而且在数据共享、信息安全等众多领域也有广泛的应用前景。共识技术作为区块链的核心技术之一,逐渐成为了学术界和工业界
目前,医学数据正在急剧增长,来自区域医疗诸多医院的病历文本数据、医学检验数据和影像数据迅速汇聚,为疾病的筛查、诊断和治疗带来曙光。医学文本数据尤其是电子病历数据,记录了患者详细的病情和治疗过程,所含信息丰富,因此,开展医学文本挖掘中关键技术的研究,提取与某疾病相关的特征并构建相应的知识图谱,可更加科学、客观地预防、筛查疾病并给出合理的治疗方案,最终为广大患者提供更好的医疗服务,具有很好的理论和实际
运动实体广泛存在于攻防体系对抗实验等军事分析仿真应用中,其连续运动行为导致时空状态更新占据了应用大部分的通信内容,成为影响和制约运行效率的关键因素。传统的通信优化技术主要面向于提高数据传输速度或过滤冗余通信链路,并不能有效解决大规模时空数据传输引起的通信瓶颈问题。因此,开展以减少时空状态信息通信量为目标的相关技术研究,对于提高通信性能,有效利用现有的计算和通信资源,满足军事分析仿真日益增长的性能需
人脑在多个时空尺度的信息交互是支撑其复杂认知和行为功能的基础,我们尝试利用磁共振成像非侵入式和较高时空分辨率的特点,研究人脑的神经信息交互机理。本文主要以静息状态下人脑的功能连接为对象,进行人脑在多时空尺度下的功能单元划分及其交互模式研究,同时探寻其结构基础。本文主要包含以下三个方面的内容:(1)人脑功能剖分方法研究。人脑的功能单元具有明显的层次性,他们之间通过复杂的功能分离和整合来完成特定的认知
在当今社会,随着传感器和计算机视觉技术的发展,人们对视频监控自动化和智能化技术有了更多的需求和研究。前景检测作为计算机视觉领域的基础技术,目的是将运动的前景物体从相对静止的背景场景中分离出来,是计算机视觉分析理解任务中的第一个问题。由于应用场景的复杂性,目前传统前景检测算法性能面临瓶颈。提高算法准确性、增强算法实时应用能力,以及提高算法鲁棒性是前景检测技术的研究重点。本文首先针对阴影和颜色伪装等应
随着计算机技术、多媒体存储技术的发展,人们的生活中充斥着海量多媒体数据,这些多媒体数据包括图像、文本、语音、视频等不同的模态。面对海量多模态数据,如何快速、有效的从中检索出感兴趣信息,是一项亟待解决的重要问题。单模态检索与跨模态检索是解决多模态数据检索的重要研究方向。哈希技术因其低存储消耗、高检索速度成为海量数据检索的研究热点,在单模态与跨模态检索研究领域得到广泛的研究与发展。本文研究单模态与跨模
穿透散射介质的光学成像技术是近年来光学计算成像领域的重点研究方向之一,在军事侦察、消防搜救、汽车自动驾驶、水下成像、医学探测等领域有着重要的应用前景。现有多种用于穿透强散射介质成像的散射成像技术,都有不同优缺点,其中基于光学相位恢复的散射成像技术具有更好的发展前景,有望实现大视场、远距离、高质量的穿透成像。针对现有基于光学相位恢复的散射成像技术普遍存在的问题,本文从光学相位恢复方法的两种代表性技术
隐身战斗机、小型无人机等弱目标的出现给防空系统造成了严重的威胁,针对弱目标的联合检测跟踪技术研究也因而成为当前理论研究的前沿和热点。检测前跟踪,区别于传统的先检测后跟踪方法,能够利用多帧观测数据,不断累积目标信息,进而达到增强目标强度的目的。本文针对检测前跟踪算法在多种场景下的运用做了大量的研究,研究内容主要包括以下几个部分:第二章利用贝叶斯理论构建了统一的目标跟踪推理框架,为跟踪算法的推导作了理
当前,计算机技术发展日新月异,随着医疗器械的配套更新,医学图像的数据也越来越丰富。面向医学图像的处理和分析能够对医生的诊断和治疗起到辅助、启发和推动作用。医学图像分割是医学图像处理的基础技术,可以根据应用需求,对医学图像中的兴趣区域进行像素级的标记。医学图像的成像方式繁杂,图像特征各异,同时,不同成像方式下的医学图像可能会针对不同人体部位,这些都导致了医学图像分割需要针对不同成像方式的数据构建不同