基于生成对抗网络的文本图像研究

来源 :贵州大学 | 被引量 : 0次 | 上传用户:hjzxxhjzxx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,跨模态领域的研究一直是深度学习研究的一个活跃领域。其中最热门的跨模态子领域文本向图像的转换时至今日都是一项具有挑战性的任务,需要结合自然语言处理和计算机视觉两个模态的算法。对文本生成图像跨模态领域进行研究,不但需要模型能够理解长难文本之间的信息关系,解码器需要正确解码,理解文本语义以及复杂的背景信息,而且需要模型能够稳定训练,从无到有地生成一幅近似于原图的伪图。本文对模型中的生成器和对抗器都加以改进,并且引入自注意力机制和对比学习的算法,主要工作概括为以下两个方面:(1)在经典生成对抗网络模型中,如果长难文本仅仅局限于文本的全局特征描述,得到的效果欠佳,本文在其基础上引入自注意力机制算法,首先输入一段文本,通过一个文本解码器解码得到句子全局特征和词级特征,其中文本编码器采用自然语言处理领域经典的双向的LSTM(长短记忆力算法)进行编码,可以提取文本描述中的语义向量,用全局的句子特征向量生成一个低分辨率的第一阶段图像,然后以第一阶段的输出作为第二阶段的输入,加入字词特征向量,进而生成高分辨率的图像。而在图像解码器中采用CNN(深度卷积神经网络),这样可以让文本句子中的局部词特征和图像的局部子区域可以映射到同一个语义空间,在CNN中,第一段输出获取图像局部子区域的特征向量,而在后续阶段则获取图像的全局特征向量,让模型可以更稳定的训练。并且提出深度注意力相似性模型,计算文本与合成图像之间的匹配度以及相似性,解决文本之间的局部关联问题。(2)引入自注意力机制之后的模型虽然在模型训练的稳定性以及一般的文本生成图像质量方面都有所改进,但是对于COCO大型的数据集中依然存在缺陷,甚至在CUB数据集中,也出现了“畸形”的合成图像。为了让模型能够更好的学习特征,在训练集中,对于同一张图像,COCO数据集和CUB数据集都有5或10个文本对其描述,不同的词语描述用于不同的场景意义将大有不同,这也导致了注意力机制模型的复杂场景的质量不佳问题。因此,本文进一步引入对比学习的方法,增强合成图像的语义一致性问题,使用数据集训练模型的过程中,首先在预训练阶段,利用对比学习让模型去学习对于同一张数据集图片中一致的文本表述。然后,在主体模型的训练阶段,同样采用对比学习的方法,让模型学习对于语义相关的文本描述可以生成相似图像的一致性能力。从而解决跨模态领域中复杂文本到与之描述一致的图像的生成质量问题。
其他文献
文本情感分析(Sentiment Analysis,SA)是自然语言处理(Natural Language Processing,NLP)领域中的重要分支。随着时代的发展,互联网成为当前社交的首要平台,它包含着大量的数据信息,其中有很多是人们发表对当前时事的评论和态度。我们对这些表达态度和情感的文本进行研究,有着重要理论和实际意义。情感分析被广泛应用于舆情分析、商品推荐、社会民生等领域。当前,情感
学位
《习近平谈治国理政》作为马克思主义中国化的创新成果及世界了解新时代中国的“金钥匙”,被翻译成多国语言,面向全球发行,在覆盖面、影响力等方面均创下了改革开放以来我国领导人著作国际传播的最高纪录。该著作“圈粉”的原因在于成功的传播范式:它在发起与翻译阶段采用了“中外合作+编译融合”范式,在出版发行阶段则采用了“本土+网状”“多元+立体”的范式。该范式为文化传播提供了有益的启示,中国文化走出去,应当采取
期刊
随着人工智能的迅速发展和国民健康意识的提高,图像识别领域的菜品检测备受关注。菜品识别的延伸应用如健康管理系统、餐厅自动结算系统可提高用餐幸福感和社会生产效率。传统的图像处理方法难以快速解决类别多、样本差异大的数据。近年来,深度学习已广泛应用于计算机视觉任务中,因此本文基于深度学习方法研究菜品识别和检测模型,主要研究工作如下:首先,针对中餐菜品种类丰富且相似度高,且在拍摄过程中因光照、遮挡等原因难以
学位
阵列信号处理的两大研究热点为空间谱估计和波束形成,在许多领域有着广泛应用。由于智能天线技术的高速发展,需要提高定位技术的精度。稀疏阵列具有阵列孔径的优势,因而受到了工程领域的广泛关注。但稀疏阵列存在严重的模糊性问题,且阵列单元之间存在互耦效应,容易导致角度估计出现严重偏差。针对上述问题,研究一种基于互耦系数估计的自适应波束形成算法,降低阵元互耦效应。同时设计一种解角度模糊的算法,在互质阵上实现并在
学位
童书外译出版具有重要的战略意义,是我国出版业高水平“走出去”和出版强国建设的重要抓手,是中华优秀文化域外传播的重要方式,也以其独特优势助力人类命运共同体建设,具有深远、长久的文化传播和融汇导引价值。当前我国童书外译出版在主观因素方面存在缺乏生产普适性原创内容的作者、高水平的童书译者和具有国际视野的编辑人才等不足。实现童书外译出版高质量发展,首要在于构筑“著译编相长”的内容生产机制,确立著译编三维主
期刊
期刊
视频运算放大器是视频信号处理系统的关键部分之一。当下,随着短视频和直播行业的兴起,视频运算放大器的应用场景越来越广泛,对其性能的要求也越来越高。高速和低噪声是视频运算放大器的两个关键性能指标,也是这类集成电路设计和实现的难点。与MOS器件相比,双极型器件的线性度更好、噪声更低、速度更快,更适合制作低噪声视频运放。本论文基于集成有多晶硅发射极晶体管的高速互补双极型工艺设计了一种低噪声视频运算放大器,
学位
随着社会的高速发展和人民生活水平的不断提高,目标检测开始越来越广泛地应用于城市交通中。不同的天气条件会对交通检测造成影响,如雾天会使得拍摄的图片质量下降,从而使目标检测的效果不佳,研究雾天条件下的交通图像中车辆和行人的目标检测问题,提高相关算法的检测性能,对交通管理的现代化发展具有重要意义,因此本文对雾天交通图像中车辆及行人的目标检测算法展开了研究。首先本文分析了三种不同的去雾理论,对三种不同的去
学位
涡旋电磁波因携带轨道角动量这一新的自由度在微波通信领域中广受关注。在理论上,轨道角动量有无穷多种正交模态,并且这些模态在任何频率上都不会相互干扰。它为电磁波带来一个全新的相位自由度,有望解决无线电频段拥塞的问题。近年来,人们用于产生涡旋电磁波的天线阵大多数为平面结构。共形相控阵天线相比传统平面天线阵,它能很好地与装载天线阵的目标载体表面贴合,有着增大天线阵的波束扫描范围、安装空间小等优点。若将轨道
学位
本文简要介绍了磁性材料的分类及基本特性、凝固基本理论、FeNiCo合金的研究进展及本工作的研究内容及意义;并详细说明了分子动力学(molecular dynamics,MD)模拟方法和微观结构的分析手段。利用分子动力学方法模拟了FeNiCo合金熔体在不同条件下的快速凝固过程,并详细研究了其微观结构演化及晶化特性,丰富了合金熔体凝固理论,对改善FeNiCo合金的软磁性能和扩展其应用途径具有重要意义。
学位