基于生成对抗网络的文本图像生成模型研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:homejang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文字图像生成是一种跨模态的交叉性任务,文本描述的逐词含义和图像子区域语义信息之间的内容关联性与一致性,是此任务关注的核心问题。生成对抗网络在图像生成领域的成功使得文本图像生成模型有了新的驱动力,从不同角度进行技术革新的文本图像生成模型层出不穷。文本图像生成主要围绕三大技术问题:语义理解、图像生成和语义一致性。本文以这三大问题为方向,探究现如今基于生成对抗网络的文本图像生成模型的优势与不足之处,分别提出了合理且高效的改动方法,最终设计出性能更加优越的模型结构。本文主要的研究成果如下:(1)提出了一种增强的多阶段注意力文本图像生成模型。本文从语义一致性增强和图像质量增强方面对现有多阶段生成模型给出了改进方案。针对前者,首先提出了基于图像区域和文本单词间的空间注意力和基于特征通道和文本单词间的通道注意力的双重注意力机制,加强图像和文本的语义关联;接着提出了分块条件匹配判别器,用以确保生成图像每个区域块与文本语义匹配性以及区域块本身的真实性与自然性。针对后者,提出了基于残差结构的多阶段图像生成器来降低网络的学习负担,并且引入了稠密特征感知损失来控制图像中与文本不相关区域的随机性。(2)提出了一种基于样式的单阶段注意力文本图像生成模型。本文将多阶段生成模型化繁为简,结合了基于样式的StyleGAN模型生成器的优势,并将其重新设计为条件控制的文本图像生成网络。该模型在生成器中加入了图像与文本的空间注意力机制,并在目标函数上引入了平滑损失函数超平面的匹配感知零中心化梯度惩罚项,保证图像文本的语义一致性,同时还构建了单路判别器来有效地配合梯度惩罚项。针对图像内容所缺失的约束,提出了关注图像质量的视觉特征匹配损失。本文在CUB和MS-COCO两个数据集上对上述模型开展了大量实验,通过对客观评价指标值的比较以及生成图像细节的主观分析,证明了本文所提出模型的有效性和优越性。
其他文献
纳米光子学是研究在纳米尺度上光与物质相互作用及其应用的学科,广泛应用于科技医疗等各个领域,其中金属纳米材料因具有独特的等离子体效应,成为学者们关注与研究的重点。由于物理实验耗费较大,同时仅仅依靠纯理论分析无法获得足够的信息,实际研究中一般用数值方法来模拟实际问题。为了研究非局域色散效应的光与金属纳米材料结构相互作用的内在规律,本文针对线性非局部Drude模型,设计了一种解耦的龙格库塔间断伽辽金(R
在现如今社会,图像在我们的生活中占据着非常重要的位置,图像处理有着很多的应用领域,这就使得图像处理相关方面的研究变得尤为重要。本文的核心内容是生成对抗网络(GAN),它的出现给很多相关研究都带来了更多发展的机会,而且GAN在处理图像相关的任务时能有很好的表现,本文在此基础上对图像翻译进行研究。生成对抗网络的出现虽然给深度学习带来了更多发展机会,但它同时也存在一些问题,例如收敛困难、训练时间长、训练
真空电子器件不仅用于预警雷达、精确制导、导弹防御等国防军事领域,在卫星通信和导航、深空探测等民用方面也发挥着重要作用。现代真空电子器件正向高频率、大功率方向发展,从而要求扩散热阴极具备高发射的电流密度。本课题组使用液相共沉淀法已经制备出(Ba,Ca)2ScAlO5化合物,并在浸渍型阴极上取得成功应用,但是(Ba,Ca)2ScAlO5浸渍阴极实现大发射电流密度的工作机制仍不明确。为准确控制前驱体成分
近年来,序列化推荐系统由于其结合时序信息能够更好地获取用户的长期或短期的兴趣偏好的特点,超越了传统的基于协同过滤的推荐方法,被工业界和学术界广泛地研究和应用。总的来说,根据推荐系统是否与用户产生交互,序列化推荐系统可以分为静态和动态两种:1)静态序列化推荐系统集中于挖掘用户的历史交互信息来构建用户兴趣,更多的是面向短期的推荐;2)动态序列化推荐系统不仅要利用历史交互信息,还要建模用户在推荐过程中的
机器阅读理解是指使用算法让计算机理解文章的意思并回答相关问题的一种技术。由于计算机算力和存储能力的发展以及深度学习因其具有的特征提取能力,使用端到端技术构建机器阅读理解模型成了主要的研究手段。基于中文文本的机器阅读理解因为构建数据集困难发展比较缓慢。百度公司WebQA数据集的提出,填补了这一空白。BiDAF模型在英文SQuAD数据集上具有优异表现能力,本文试图将其迁移到WebQA数据集中,得到中文
随着近年来移动和物联网技术的快速发展,设备到设备(D2D)通信已被广泛使用。IEEE 802标准为D2D通信提供了许多协议,例如Wi-Fi,LTE和蓝牙。尽管D2D通信普遍且方便,但实际上现有的短距离非接触通信方式在安全性和灵活性方面存在许多不足。例如,蓝牙传输技术和NFC技术需要相应的硬件支持。另外,蓝牙传输技术在通信时需要提前建立良好的链路,这降低了通信效率。并且由于使用了开放的通信渠道,它面
近几年,国内龋齿患者大幅增加,口腔修复的需求日益增大,数字化口腔三维测量可以帮助医生快速完成口腔修复任务。因此,如何在低成本的前提下实现高速、高精度的牙模三维测量成为研究热点。本文对结构光三维测量技术和双目立体视觉方法进行结合和优化,进一步提高牙模的重建精度和准确度,具有重要的研究意义。本文的主要研究内容包括:(1)基于格雷码改进有序周期相移算法。有序周期相移算法仅需投射四幅条纹图案,就能得到精度
随着网络中传输的各类信息逐渐增多,如何确保这些数字信息的机密性一直是大众关注的焦点。作为保障信息安全的重要手段,公钥加密技术为多样化数字信息的安全传递提供了可靠的保障。而云计算的出现,更是为用户数据按需存储与即时访问提供了可能。但考虑到第三方云服务器的不可信赖性,如何确保存储在云服务器中的用户数据安全,保障数据的前向安全性仍然充满挑战。为了应对这一挑战,近年来,支持用户撤销的加密体制应运而生,并吸
图像的纹理主要是一种反映图像中同质现象的视觉特征,它体现了物体表面的具有缓慢变化或者周期性变化的表面结构组织排列属性。纹理信息分为局部纹理信息和全局纹理信息,其中局部纹理信息不同程度的重复性构成全局纹理信息。一方面,纹理图案中的晶格(Lattice)的提取主要是识别出纹理图案中的具有视觉相似性的小的重复图案的部分,另一方面也便于形成一些比较复杂的纹理图案。另外,由于织物上一些重复图案的出现,使得对
2002年,匈牙利数学家A.Csaszar引入了广义拓扑空间的概念,对广义拓扑空间中的点集性质、子空间性质等做了研究,并在这个拓扑空间中取得了无数成果。广义拓扑实际上是一个半拓扑。因此,2015年胡西超等人将广义拓扑重新命名为上半拓扑,进而也引入下半拓扑的概念并且得到了关于下半拓扑空间中的一些基本结果。此后,不少研究者积极投入,将拓扑再重新剖分成左半拓扑和右半拓扑,并得到这两类半拓扑上的一系列结果