基于场景图的细粒度图像生成模型

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：q1q3q5

【摘要】

：

在早期的文本生成图像的研究中,可变分自动编码器VAE是最常用的方法,它可以通过编码文本然后解码来生成相应的图像。但是由于可变分自动编码器VAE模型本身存在局限,导致生成

【作者】

：

薛福兴

【出处】

：

哈尔滨工业大学

【发表日期】

：

2004年期

【关键词】

：

场景图生成图像自注意力机制渐进式增长场景图生成对抗网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在早期的文本生成图像的研究中,可变分自动编码器VAE是最常用的方法,它可以通过编码文本然后解码来生成相应的图像。但是由于可变分自动编码器VAE模型本身存在局限,导致生成图像质量一般。当前文本生成图像主要使用生成对抗网络GAN的方法,生成对抗网络GAN恰好能解决图像生成质量不好的问题,为了解决VAE模型的局限,生成器训练生成图像的数据分布来欺骗鉴别器,同时对鉴别器进行优化以区分真实的样本和由生成器产生的错误样本。目前为止,大多数文本生成图像的论文都仅针对生成单个物体的图像,对于单物体的生成效果有较大的进步。但是对于在一幅图像中生成多个物体的图像研究较少,虽然使用场景图能够解决在一个图像中生成多个物体的问题,但网络并没有很好的处理图像中物体的细节。并且在模型的训练过程中,图像生成的稳定性不够,造成图像质量有所下降。为了解决图像中物体缺乏细节的效果,本文提出在掩码回归网络中增加自注意力机制的方法对物体细节进行填充。由于大多数文本生成图像的模型都采用的是卷积GAN,卷积GAN中的卷积操作会受到局部感受域的影响,如果一个物体在图像中所占用区域过大,卷积核则无法提取该物体所占用的整个区域,导致提取的区域之间没有太大的联系,影响物体整体的生成效果。通过引入自注意力机制将特征图中独立的区域联系起来,可以有效解决由局部感受域引起图像中物体细节不够的问题。同时为了解决场景图生成图像过程中不稳定的效果,本文在级联细化网络中采用渐进式增长的方式。场景图生成图像如果要提高图像的分辨率,可以通过增加隐藏层的方式来实现,但是这将导致生成器一次需要学习太多参数,优化算法没有办法协调多个层以捕捉这些存在依赖性的参数值。本文通过在训练期间不断地向生成器和鉴别器添加隐藏层的方式,使模型先生成图像的轮廓信息,再将注意力转向图像中细节的填充,这样不仅能够稳定模型的训练并且能够加快网络训练的速度。本文共使用两个数据集来验证我们的结果,分别是Visual Genome数据集和COCO Stuff数据集。VG数据集提供手工注释的场景图,而COCO数据集需要从图像中物体之间的位置关系构建合成场景图。为了验证提出模型的有效型,本文使用了评估生成图像质量好坏的Inception score评价标准,同时为了验证场景图和生成图像两者是否相符采用了人为的评判标准,从两个角度证明本课题提出的方法能够生成质量更好的图像。

其他文献

基于真值发现的集成学习研究

集成学习是一类非常重要且实用的机器学习方法,但集成学习不是一种特定的机器学习方法,它是通过生成并组合多个基学习算法来完成任务。该工作有效地促进了信息融合、数据建模

学位

集成学习分类真值发现StakingBagging

Spark RDD存储策略的动态优化

伴随着日益增长的大数据相关的业务需求,大数据计算在科研领域及企业界都有着广泛的应用,例如数字图像处理、用户需求的预测等等,这些业务需求的实现通常都依赖于例如Hadoop

学位

Apache SparkRDD数据存储性能优化

基于深度神经网络的井下巷道场景轨道检测模型研究

目前我国的井下巷道运输主要以人工驾驶的轨道机车方式为主,频发的安全事故带来了巨大经济损失和恶劣社会影响,井下运输的自动化和无人化将成为今后发展的必然趋势,而实现对

学位

井下轨道检测深度学习卷积神经网络生成对抗网络注意力蒸馏

基于PGP信任传递的去中心化联盟链CA管理体系研究

联盟链具有高可用、高性能、可编程和隐私保护等方面的优势,面向领域应用而受到人们的广泛关注。作为关注度最高的联盟链开发平台,Fabric采用层次模型的认证中心(Certificate

学位

区块链CAPGP信任传递

miR-144-5p和miR-451a通过靶向调控唾液酸转移酶Ⅳ抑制胆管癌细胞生长的作用机制研究

目的:通过检测miR-144-5p和miR-451a在胆管癌病人配对的癌组织和正常胆管中的表达量,以及探讨miR-144-5p和miR-451a对ST8SIA4的调控作用,从而分析miR-144-5p、miR-451a和ST8SIA4三者之间的关系可能在胆管癌的进展的意义。方法:我们选择7对匹配癌组织与正常胆管组织(其中ICC有3对;HCCA有4对),进行小RNA的建库测序,对miRNA表达量、序

学位

胆管癌miR-144-5p和miR-451aST8SIA4

集中供热网负荷分配算法研究

目前国内北方地区供暖方式基本采用集中供暖的方式,枝状管网为集中供热的主要布置方式。但是由于枝状管网的水力特性而导致的水力热力不均衡问题在集中供热系统中十分常见,由

学位

集中供热系统水力热力不均衡仿真模型SAPSO实时微调

图像缩放失真抑制技术与分类算法研究

21世纪是一个信息化爆炸的时代,相比于声音和文字,图像能够使人们更直观地获取信息,它所包含的信息量更大,接收方式更加灵活,传递的方式更为直接。人们需要将获取到的图像进

学位

图像失真图像分类图像插值双三次插值算法词袋模型

基于时空特征融合的水稻种植区提取研究

本文目的是探究基于时空特征融合的水稻信息提取策略,具体地,将在当前低空间分辨率时序影像分类中引入“超像元”,基于超像素分割方法,对高空间分辨率影像进行分割,得到具有

学位

MODISNDVI时间序列超像素时空融合单季稻

压电陶瓷激活微小型热化学电池的关键技术研究

随着现代战争环境的日益复杂,武器装备的微小型化已成为主要的发展趋势之一,军用热电池被誉为弹载武器系统的“心脏”。因此,对军用热电池的需求量巨大,而现有的激活热电池方

学位

压电陶瓷微小型热电池冲击压力电输出特性电点火头

吕新小说创作论

吕新是中国当代富有探索性和想象力的作家,他以现代化的小说形式和语言书写二十世纪六七十年代的晋北山区生存图景,塑造了自己的晋北小说世界。吕新的先锋写作从八十年代贯穿

学位

吕新小说先锋文学小说叙事艺术

基于场景图的细粒度图像生成模型

与本文相关的学术论文