基于自注意力生成对抗网络的文本生成图像研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:wy85396021
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,人工智能领域的发展备受人们的关注,这都归功于深度学习技术在近几年来取得的突破性进展,特别是与神经网络技术相关的研究取得的重大突破。在计算机视觉领域,深度学习技术已经在图像识别、图像分类、图像分割以及图像的语义描述等方向大放异彩,并展现出高于机器学习技术数倍的性能。然而,计算机视觉中的图像生成问题时至今日仍是一项艰巨的挑战,这是由于早期生成式模型的研究一直鲜有突破,利用图像类别甚至是文本描述作为条件来控制神经网络模型进行图像的生成则更是难上加难。令人振奋的是,生成对抗网络技术的提出为利用文本生成图像这一问题提供了很好的解决方案,并且生成对抗网络技术本身在近几年之间也不断被改进与优化,性能得到了大幅度的提升。众所周知,生成对抗网络在图像生成领域有着极佳的表现,模型本身具有易理解、易实现的架构优势,并且还能够生成原有方案无可比拟的真实性的图像。然而,生成对抗网络得益于其独特的训练方式的同时,也被其训练方式所约束,许多研究学者在实验中均发现原始生成对抗网络存在训练不稳定以及模式坍塌等问题。即便是最新的基于生成对抗网络的文本生成图像的工作当中,其模型仍存在这一问题,从而导致模型生成图像的能力欠佳。本论文对基于生成对抗网络的文本到图像生成方案进行扩展。本论文的主要工作如下:第一,对原有文本到图像生成方案GAN-CLS算法进行损失函数上的改进。原有的方案中使用了JS散度,该距离测度在生成对抗网络训练初期,模型数据分布与真实数据分布重叠部分较少时容易导致梯度消失现象的产生,从而模型训练困难。而近似的EM距离能够根源上解决该问题,因此本文通过理论论证与实验的方式证实了近似EM距离的引入能够提高原有GAN-CLS方案训练稳定性并避免模式坍塌问题。第二,在文本到图像生成方案中引入自注意力机制,提出了GAN-SelfAtt模型框架。同时,本论文使用WGAN、WGAN-GP两种损失函数定义方案对基于自注意力的GAN-SelfAtt框架进行实现。实验结果表明,自注意力机制的引入能够提高生成图像的清晰度,这归功于自注意力机制弥补了卷积运算中只能计算局部像素区域内的相关性的缺陷。
其他文献
如何构建全面、完整的企业环境报告是研究环境会计的重要环节之一.本文拟对我国企业环境报告的使用者及主体、内容、披露模式等方面作出初步探讨.
本文论述了国内外企业银行的发展历程,企业银行的出现引导银行和企业之间在业务合作上进一步相互渗透,分析了几种典型的企业银行模式,在此基础上提出了基于系统互联模式的企
介绍一种能在无人情况下自主工作,并具有自动避障等功能的新型智能吸尘器的开发及设计,它自带电源,由单片机控制。
本文通过阐述当前企业财务管理中普遍存在的问题,探讨如何改进企业内部财务管理措施,从而有效提高企业的经济和社会效益,促进企业稳定、良好地发展。
<正>2018年3月以来,安徽省铜陵市立医院坚持"小切口,大动作",以做实做细做优家庭医生签约服务为切入点,围绕"体系升级、服务升级、管理升级、保障升级",突出医保支付方式创新
随着电力发展,装机容量不断扩大,机组技术服务业务量明显增加,同时电站锅炉技术服务试验种类繁多,存在多类试验同时开展的情况,为解决发电企业高频次、多种类电站锅炉综合性
CL复合剪力墙中因钢筋密集、混凝土截面小,采用自密实免振混凝土。混凝土配制、浇筑是控制难点。
近年来,昌邑市把加快纺织印染业发展摆上重要位置,坚持以招商引资为突破口,以骨干龙头企业为带动,以园区建设为载体,全面提升纺织印染业档次,出台了鼓励纺织印染业加快发展的
随着21世纪的来临,在世界范围内,社会经济形态、社会结构形态都发生了一个巨大的变化,即从工业经济和工业社会向知识经济和知识社会转变.知识经济和知识社会这一概念向人们表
随着合成生物学技术的发展,采用异源合成的方式生产具有生物活性的珍稀天然产物可以解决天然菌株发酵周期长、工艺复杂、副产物多等诸多问题。但是传统的异源合成多在单个菌