基于预训练语言模型的中文摘要方法研究

来源 :深圳大学 | 被引量 : 0次 | 上传用户:xiehao2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本摘要技术是自然语言处理(Natural language processing,NLP)领域中重要的一部分。近两年来,预训练语言模型在自然语言理解(Natural language understanding,NLU)任务中的成功应用,有力地推动了 NLP技术的发展进程。其中,以 BERT(Bidirectional encoder representation from transformers)为代表的预训练模型在NLU任务上有着得天独厚的优势,却难以应用于自然语言生成(Natural language generation,NLG)任务。因此,如何将预训练语言模型应用到文本摘要任务是一项挑战。本课题在分析了序列到序列(Sequenceto sequence,Seq2Seq)问题之后,以编码器与解码器模型为框架,研究了预训练语言模型对文本摘要任务的影响,主要研究工作如下:(1)目前基于深度学习的生成式摘要方法采用的Seq2Seq模型,通常指的是结合注意力机制的循环神经网络(Recurrent neural network,RNN)模型。其缺点在于无法并行计算,模型训练速度缓慢。鉴于Transformer模型在机器翻译任务中取得的出色表现,提出采用自注意力机制的Transformer模型代替长短期记忆网络(Long short-termmemory,LSTM)模型或者门控循环网络(Gaterecurrent unit,GRU)模型。最终,本课题提出基于Transformer的生成式摘要模型(Transformer-based abstractive summarizer,TransAbsSum),并结合指针生成网络(Pointer-generator network,PGNet)来缓解未登录词(Out of vocabulary,OOV)问题。在测试与推理阶段,采用集束搜索(Beam search)来提升模型生成摘要的多样性。(2)基于深度学习的摘要模型往往采用随机初始化的神经网络参数开始训练。其中,编码器部分没有经过训练,将导致模型训练的收敛速度缓慢,难以学习到语言的特性。而预训练语言模型已经在多项NLP任务中取得了突破性的进展。因此,本课题选取RoBERTa(Robustly optimized BERT)作为改进目标,将模型的编码器部分替换为预训练语言模型,提出基于RoBERTa的生成式摘要模型(RoBERTa-based Abstractive Summarizer,RoBERTaAbs Sum)。(3)由于神经网络存在长距离依赖问题,基于深度学习的生成式摘要模型难以对长文本进行摘要。一旦模型输入大量序列,神经网络无法完全保留这些序列信息,将导致原文中关键信息的丢失。因此,本课题提出了多特征加权的预摘要方法(Pre-summarization,PreSum),通过抽取六种隐含特征对长文本进行初步的压缩,将压缩后的句子作为候选摘要,输入到基于深度学习的生成式摘要模型作进一步处理。最终,本课题得出两个结论。第一,实验表明基于预训练语言模型的生成式方法是切实有效的。其中,RoBERTaAbsSum+PGNet模型效果显著优于现有的摘要模型。但是,相较于近期开源的预训练摘要模型,仍有不足之处,后续工作打算采用强化学习策略对摘要模型进行优化,期望能够提升摘要模型的性能。第二,实验表明采用多维度加权的预摘要方法,抽取出的候选摘要优于传统的抽取式摘要结果。并且,经过预摘要处理后生成的摘要结果,明显优于由长文本直接生成的摘要结果。
其他文献
随着城市规模的不断扩张,城市社会经济的多样性和复杂性也随之增加。作为城市社会经济活动重要载体的城市空间,其形态和结构也在这个过程中变得错综复杂,人口和信息、能量、资金等要素在不同的城市功能区之间进行流动,城市规模的扩大,这些流动在强度上和复杂程度上都有显著的提高。如何科学的认识城市功能区之间的交互关系,并在此基础上合理地对城市中不同功能区在空间上进行安排,既有利于提高人口和信息、能量、资源等要素在
技术高度发展的今天,人们在生活、工作、学习、研究等各个领域中都会涉及布局设计,比如进度汇报、工作总结、商品展示、成果演示、海报制作等。用户在使用现有图形编辑工具布置元素时,常常希望得到协助,从而能够快速便捷的得到期望的元素布局。他们希望能被指导,而不是漫无目的在调整元素位置上浪费时间;希望可以直观比较,而不是在不同方案之间反复切换消耗时间;希望能够避免简单重复的实现工作,并且他们的设计意图能够被系
随着半导体技术的不断更新,物联网、人工智能和5G通信等应用领域的不断发展以及电子产品功能的不断复杂化,对电源管理模块最大电流能力要求也不断增加。对于在电源管理类芯片中应用最广的低压差线性稳压器(Low Dropout Regulators,LDO),由于芯片封装大小以及散热的限制,使得单个LDO芯片能提供的最大电流也受到限制。而LDO的并联方案是解决该问题、提高电源系统最大电流能力的有效途径,但简
当前,中国人口老龄化问题日益突出,持续的老年人口增长将大众的视野聚焦到了老龄化相关的社会问题上,其中老年人的社会交往问题是重要问题之一。老年人退休后的社交圈子从社会工作转向了家庭邻里,社会联系的减少使得他们从心理上更需要与人交流,社会交往活动能够帮助老年人重新建立新的社会角色,构建新的社交网络,有利于老年人身心健康。住区户外活动空间是老年人群体进行日常交往活动的主要场所空间,其空间环境品质直接影响
随着快速城市化进程的推进,深圳市率先遇到了土地及空间资源约束的瓶颈,空间资源难以为继成为推进城市建设的主要障碍。与此同时,城市建设吸引的人口迁移、城市更新引发人口结构的变化以及教育政策的不断放宽将会对教育资源产生巨大的新增需求。现有教育设施难以满足激增的人口规模需求,导致教育设施的供需矛盾日趋凸显。在土地稀缺和人口增长的双重压力之下,城市更新成为空间资源获取的主要途径,通过城市更新完善教育设施配置
近年来随着人工智能的快速发展,自动问答系统备受瞩目且发展前景广阔。在生成式自动问答系统构建过程中,面临着由于知识匮乏而带来的生成不准确的问题。针对这个问题,本文将领域词典和知识图谱这两种不同形态的外部知识信息融合到深度模型中,增强对问句的理解,从而提高生成答案的准确性,研究内容如下:(1)针对生成式自动问答系统缺乏外部知识而导致的生成不准确问题,本文提出融合领域词典和拷贝机制的答案生成模型(LEP
图像风格迁移是指给定一组内容图像和风格图像,合成一张结果图像,该图像既保留内容图像的内容,又体现风格图像的艺术风格。图像风格迁移是计算机图形学、图像处理等领域的基础问题之一,在图像处理、艺术创作以及影视特效等方面有着广阔的应用前景。近几年里,随着深度学习的发展,虽然图像风格迁移方法的研究取得了重大进展,但是在实现图像任意风格迁移时,如何同时保证速度和图片质量,仍有待进一步解决。当今先进的图像任意风
在线投资组合选择的目标是在一组资产之间按某种比例分配资金,以最大化累积财富。现有的在线投资组合选择大多侧重于收益最大化,而缺乏有效地控制风险。并且许多风险控制算法使用最大回撤、夏普比率等作为风险指标对算法进行优化。但这些风险指标对短期内的风险并不敏感,往往会造成该类风险控制算法无法及时地控制短期风险,导致算法整体的风险控制效果不佳。针对上述问题,本文对在线投资组合的风险控制问题进行了如下研究:1)
近年来,越来越多的服务类机器人进入人们的生活。在人机共居的环境下,机器人既需要完成任务,又需要与人保持适当的距离,做到及时避让。传统的机器人避让方法,往往使用激光雷达、深度相机和传统的视觉处理算法,前两种方法成本过高,而传统的视觉处理算法会受光照等因素影响,并且过程也尤其繁琐。针对以上缺点,本文通过低成本单目相机,结合基于深度学习的深度估计与人体检测算法,仅用单张图片即可检测到人体,同时得到人体的
随着“儿童友好”理念的不断推行,儿童的需求和权利得到越来越多的关注。社区公园是与儿童生活最贴近的公共空间,也是城市公园系统的重要组成部分,承载了大部分儿童的日常户外活动,但目前社区公园的空间环境和各类设施还不能很好地满足儿童活动的需求,这对儿童户外活动的体验造成了较大的影响。与此同时,城市儿童肥胖率的不断上升给儿童的健康提出警告,儿童需要合适的、有吸引力的社区公园鼓励他们走出室内,进行户外活动来锻