基于生成对抗网络的文本到图像生成算法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:zumei2003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
众所周知,深度学习技术在诸多领域的判别任务上已经取得了飞跃式进展。近五年来,生成对抗网络的提出把图像生成任务也推向了新高度,其中也包括本文的研究主题,文本到图像生成。文本到图像生成是一种条件图像生成任务,它以自然语言书写的文本描述为条件信息,指导或监督生成对抗网络生成符合文本高层语义的高质量图像。生成对抗网络作为目前最受欢迎的生成模型,成为了文本生成图像的主要解决方案。但是,由于生成对抗网络训练困难等内在局限性,文本生成图像不仅面临分辨率、自然度、语义相似度等合成图质量问题,还需面临模型训练不稳定,难以收敛到纳什均衡等难点。本文基于文本生成图像当前的发展状况和面临的主要挑战,提出了以下两个算法:针对合成图分辨率较低且主观视觉质量较差的问题,本文提出了基于嵌套监督的生成对抗网络(Nested-Supervision Generative Adversarial Network,NS-GAN),把多个判别器侧接在生成器的中间隐层,对深度较大的生成网络的中间层进行对抗监督。另外,为了直接约束合成图某方面的质量目标,本文设计了多目标联合对抗损失,在基础对抗损失之外,还引入了直接作用于生成器的感知损失、提升合成图多样性的类别信息损失和提升合成图与给定文本语义一致性的匹配感知梯度惩罚损失。伴随监督架构提升了训练稳定性,而多目标联合对抗损失则很好地提升了合成图的各项质量要求。针对文本生成图像模型日益复杂化,网络参数量和计算量显著上升的问题,本文提出了基于融合弥补的生成对抗网络(Fusion and Compensation Generative Adversarial Network,FC-GAN),在生成器前馈过程中多次补偿文本条件信息,将文本和图像特征深度融合,实现条件信息对生成图像特征的调制和监督。融合弥补生成对抗网络为单体型架构,仅包含一个生成器和一个判别器,大大简化了模型结构。另外,为了给出更明确的优化目标,本文设计了两路判别器,一个分支只判别图像质量,另一个分支则专门考察图像和文本的语义匹配度。并且,为了进一步提升合成图视觉细节,本文引入了局部图像损失,让判别器注意鉴别合成图细粒度纹理的真实度和自然度。由于在生成过程中持续进行特征融合和信息弥补,本算法得以基于简单的单体架构合成出256 × 256分辨率图像,且达到了与对比模型相当的语义丰富程度。
其他文献
随着经济体制改革的不断深化,以及电力公司资金管控体系的不断完善,供电公司迫切需要根据市场环境发展,创新资金管控手段。本论文采用Saa S模式研发供电公司资金管控系统,实现电力企业合同相关业务的信息化管理,提高供电公司资金管控效率,解决当前供电公司项目合同管理信息共享渠道不通畅的问题。本论文所研究的供电公司资金管控系统,采用MVC结构进行供电公司资金管控系统整体框架的设计,采用UML技术进行供电公司
随着生活质量的提升、可穿戴智能设备的普及和互联网的快速发展,第一视角视频数据量不断增加,第一视角行为识别在健康监测、个性化评估、危险预警等领域有着广泛的应用前景,吸引了大量研究者的关注。本文研究基于深度学习的第一视角行为识别方法,针对生活场景中常见的行为类别,构建第一视角行为识别数据库,围绕着时空融合策略这一基础,解决第一视角行为识别问题。本文的具体研究内容如下:1.本文构建了第一视角行为识别数据
由于现代飞机机载电子设备种类众多,具备高频率、高处理速度、高灵敏度、高安装密度、高集成度等特点,所以飞机在复杂电磁环境下的电磁兼容性问题是一个重大而复杂的问题,不仅要分析大量的试验数据,还要结合飞机实际的外部电磁环境,对试验数据和设备指标逐项进行详细的理论分析,工作量大,复杂度高。本文设计并实现了一种高效的飞机系统电磁兼容性管理软件,其主要功能为辅助设计人员做好飞机系统的电磁兼容性管理工作,包含了
飞机作为一个复杂的系统,其上有较多装配件和成品件,此部分产品在飞机上均要实现一部分的功能。若此部分的功能丧失或出现差错,轻则影响飞机一部分系统的功能导致无法执行飞行任务,重则造成飞行事故机毁人亡,所以对装配件、成品件这部分功能性产品在装机前的检查就尤为重要。试验台是验证这些产品功能性是否符合指标的主要设备,通过试验台可以模拟产品在飞机上的使用工况,将不符合要求的产品提前检查出来,避免将有故障的产品
自1990年代中期整个通信行业第一次提出了固网业务与移网业务进行融合的FMC(fixed-mobile convergence)概念。目前来看,通信行业业务类型和方式发展迅速,带动着通信行业的集团客户及个人用户对通讯业务的需求也不断的变化,需求越来越多、越来越丰富,甚至可以用“苛刻”来形容。通信行业用户不仅需要定制、多样化并且流畅的通信业务,而且还要求运营商对服务范围及业务模式进行扩展,满足其不断
近年来,大数据智慧课堂成为教育领域讨论的焦点,运用人工智能技术来创建智能化的课堂学习环境是未来各类学校将要推行的创新教学模式。随着计算机硬件算力的提高以及深度学习时代的到来,行为检测技术将被广泛应用于智慧课堂、云端教育等领域。当采用现有的目标检测算法对教室场景的监控图像进行行为检测时,会出现错检、漏检、定位不准等问题。为解决这些问题,本文构建了新的教室场景图像数据集,并提出了三种新的行为检测方法。
由于飞机整机结构复杂,在飞机装配过程中所涉及的各类设备成品、附件及零组件数量众多,在整机各系统安装到位后,因为排故、改装、替换模型件等原因会对部分附件、零组件进行拆除,因此在对其进行恢复安装后,需按照装配操作规程进行细致检查。因此,通过引入图像识别与机器学习相结合的技术,研究对装配过程进行智能检测的方法,有助于回避当前依赖人力进行舱内检查的弊端,最大限度地排除质量隐患。本文首先对飞机部件装配场景进
近年来随着互联网社区的快速发展,用户产生了大量含有文本的多媒体文件。文本识别技术成为多媒体检索与内容分析审核的核心方法,利用文本检测定位图像中文本区域并进行识别,实现智能化多媒体文件检索归类以及图像内容分析审核。文本识别技术作为多媒体文件中文字信息转变为结构化文本的一种重要手段,在智能信息录入、多媒体检索、内容分析审核、智能穿戴设备等方面得到广泛应用。然而在文本识别真实应用场景中并不能保证获取高质
随着老龄化趋势的到来,帕金森疾病的患病人群数量急剧增加,且有逐渐年轻化的趋势。帕金森病是一种神经退行性疾病,因多巴胺能神经细胞的大量死亡导致,一旦发病,不可逆转。故帕金森疾病患者如能在早期得到及时的诊断和干预治疗,可有效阻碍疾病的发展进程,提高患者的生活质量。但是,目前缺乏经济高效的手段对帕金森病进行早期筛查。基于此现状,本文研究和实现了一套用于早期筛查帕金森疾病的系统。此系统通过手机APP实现,
在新时代信息技术的基础上,电子政务实现了较为快速的发展。在很多行政办公领域都产生了极大的影响,在提高政府机构的工作效率基础上,不仅优化了政府服务的效果,还获得了公众的普遍认可。但是电子政务行政系统,依旧面临极大的信息安全问题,特别是重要涉密信息的安全。政府机构对涉密泄露问题十分担忧,这也是电子信息化进一步发展的核心考虑问题。如今,很多行政机构都存在极强的涉密信息管理的需要,但却欠缺相应的涉密信息管