基于深度神经网络的文本生成方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:zdhxhx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,深度学习的兴起为基于深度神经网络的文本生成方法的发展提供了新的契机。作为文本生成问题中的代表性任务,自动文本摘要和自动文本简化旨在提取出原始文本的核心内容,并生成一段可读性强且易于理解的文本,是应对信息过载、阅读困难等实际问题的高效解决方案。目前主流的神经网络方法多采用基于循环神经网络的编码器-解码器框架,存在原始文本表示欠佳、生成句与原始文本语义相关性不高、生成句子冗余、集外词生成困难等诸多问题。针对这些问题,本文探究了基于深度神经网络的文本生成方法,在自动文本臀谋炯蚧热挝裆峡沽搜芯抗ぷ?设计并实现了一种基于改进集束搜索的生成式摘要生成方法和一种基于子词单元的端到端文本简化方法,分别在多个数据集上进行了实验,实验结果表明了模型在任务上的有效性。本文的主要贡献具体包括:(1)设计并实现了一种基于改进集束搜索的生成式摘要方法,其中包括:一种新型混合编码器结构,利用循环神经网络学习输入文本序列中的时序信息和长距离依赖,同时利用卷积神经网络捕获输入序列的上下文信息;两种用于摘要解码的集束搜索算法,即得分函数结合了语言模型和语法形式惩罚策略的语法增强集束搜索算法和引入了一个惩罚因子的多样性集束搜索算法;一种基于关键短语的重排序机制,利用候选句与原始文本中重合关键短语的重要性得分对候选句进行排序。在CNN/Daily Mail等多个数据集上的实验表明了该模型在文本摘要任务上的有效性。(2)设计并实现了一种基于子词单元的端到端文本简化方法,利用字节对编码算法提取子词单元并构建词表,减小词表规模以提升序列到序列模型的效率,利用子词单元关联形态相近的词语,解决罕见词训练及集外词生成问题。将该模型应用到PWKP和WikNet等数据集上,实验结果与词语级方法相对比表明了本模型的有效性。
其他文献
介绍了广东、安徽、浙江三省造林补贴试点的情况。地方党委和政府高度重视造林绿化工作,非重点工程造林的比重逐步提高,油茶等木本油料产业发展迅猛。造林补贴试点政策极大地
<正> 近日,在广东省宗教工作座谈会上,省委书记张德江就如何做好宗教工作谈了三点意见:①充分认识做好宗教工作的极端重要性,进一步明确新阶段宗教工作的指导思想和基
石油资源日趋紧张,环保压力日趋增大,燃油汽车必将被其他能源汽车所取代,这是人类发展历史的必然选择。本文对电动汽车的关键技术作了综合评述,并指出了目前电动汽车技术发展
本论文讨论了一种实用的基于IP 网络的多媒体视频会议终端的设计方案,并给出了一个采用嵌入式x86+视频处理芯片架构的终端实例。为一个实用的符合H.323 标准的视频会议终端提
目的:系统性红斑狼疮(systemic lupus erythematosus,SLE)是一种病因不明的自身免疫性疾病,其发病率、复发率均很高,可造成多器官、多系统损害,严重危害人类生命和健康。长期
目的探讨足三里穴位注射联合5-羟色胺(5-HT3)受体拮抗剂在胃肠道肿瘤化疗相关恶心呕吐患者中的应用效果。方法选择2016年5月至2018年5月在空军军医大学唐都医院消化内科治疗
结合工程应用实践,主要从技术安全可靠性方面,对光伏逆变器进行分析研究。
酱油是中国传统的调味品,酱油的生产安全问题,主要是由于酱油生产企业无法对产品的加工进行有效的质量管理,为了提高酱油的卫生质量,我们应用危害分析与关键控制点(HACCP)体
我国软饮料工业发展速度很快,品种也不断增加。1995年产量达到949.04万吨,接近完成“九五”规划2000年的产量水平。1995年产量中碳酸饮料为491.56万吨占51.8%,矿泉水142万吨占14.97%,果蔬汁143.63万吨占15.13%,以...
相变储能是利用相变材料发生相变过程将能量储存起来,待需要时又将储存的能量释放出来。因此可以解决能量供求在时间和空间上不匹配的矛盾。相变材料具有储能密度大、蓄放热