基于生成对抗网络的图像描述研究

来源 :宁夏大学 | 被引量 : 0次 | 上传用户:xf1005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像描述是计算机视觉应用于视觉理解的一项子任务,其主要目标是将一幅图片翻译为相应文本描述,不仅需要识别图片中的重要对象,对象的属性和位置逻辑关系,还要根据这些信息生成语法和语义正确的句子。与传统视觉任务不同,图像描述涉及计算机视觉与自然语言处理两大研究领域,使其成为一个具有挑战性的工作。现有图像描述方法主要采用“编码器-解码器”结构对图像进行编码、解码从而获得对应描述,效果显著但仍存在诸多问题有待解决。本文在图像描述方法中引入生成对抗网络,针对目前研究中存在的问题进行详细分析,提出了基本解决思路,并将其应用到图像描述任务当中,以验证其有效性。具体研究内容如下:(1)调研并分析图像描述相关研究方法。现有方法首先使用卷积神经网络作为编码器提取图像特征向量;然后使用循环神经网络作为解码器,根据提取到的特征来生成图像对应的描述文本;最后使用交叉熵损失函数对模型进行优化。然而这种方法在训练的过程中会存在衡量标准不一致的问题,同时未能充分考虑生成描述包含语义是否准确、充分和合理。本文在深入分析和总结上述问题后,提出了一个对称框架结构,引入生成对抗网络,通过对原始图像进行重建,以重建图像是否包含充足的视觉特征来约束描述的生成,促使网络生成具有更加丰富语义信息的图像描述。此外,图像的重建损失在一定程度上缓解了训练过程中衡量标准不一致的问题。(2)提出一种融合“文本-图像”生成的图像描述模型。图像描述任务旨在探索图像与文本之间语义内容的相似性。根据(1)中对图像描述与生成对抗网络的分析与调研,本文在基于“编码器-解码器”结构的图像描述模型基础上,引入“文本-图像”生成模型根据生成描述重建输入图像,在重建过程中引入自监督的方式优化描述生成过程,同时以交叉熵损失、生成对抗损失与图像重建损失对模型进行训练。通过在MS-COCO数据集上的实验验证了该方法的有效性。(3)在以上研究的基础上,提出一种融合“像素-像素”翻译的合作学习方法。现有的许多图像描述方法都是利用预训练的分类模型提取特征用于描述的生成,忽略了不同任务之间特征表示差异。为解决这一问题,本方法旨在利用图像描述和“像素-像素”翻译任务之间的相似性来缓解特征表示的差距。具体来说,框架由两个模块组成:1)“像素-像素”翻译模块将图像编码为特征表示,然后解码为原始图像。2)自然语言生成模块根据提取到的特征图生成图像描述。因此,在协作学习过程中,特征表示得到了改善。通过在MS-COCO数据集上的实验验证了该方法的有效性。
其他文献
古筝,是经久不衰、流传千年于中国大地上的民族之音。历史辗转变迁,古筝艺术日臻完善,它已逐渐从纯粹的乐器演变为兼具美学风格与审美意蕴的符号象征。李萌多声弦制壮族筝曲是基于少数民族艺术体系中表达特定民族精神面貌、展现异域演奏艺术魅力的独特音乐形式,它接续发展了传统民族器乐的底蕴和精华,以变化多端、风格迥异的乐风丰富了古筝艺术的表现力和感染力。但目前,国内对李萌壮族多声筝曲的研究寥寥无几,对于李萌集演奏
学位
“两弹一星”作为中国发展进程中的标志性历史事件,已经通过各类媒介活动存在于国人的教育认知和时代记忆之中。在“两弹一星”事件经历“历史事件-媒介仪式-社会遗忘-记忆再现”的社会化过程中,作为核武器研制基地的青海原子城,至今仍基本完整地保留上世纪存在的各类实体建筑,新闻报道、出版图书和影视资料也不断地出现在公共视野中,由此成为一个具有多元空间特性的记忆之场.研究从社会记忆研究视角出发,以皮埃尔·诺拉的
学位
月球撞击盆地是由一次或多次大型撞击事件形成,反映了月球外动力地质作用演化的过程;晚雨海纪时期,盆地内被玄武岩充填形成月海,反映了月球内动力地质作用演化的过程。因此,撞击盆地的形成是月球古月宙时期地质演化的一个非常重要的过程,在月球地层、构造、月壳结构中占主导地位。本文利用新一轮月球探测的获取高分辨率影像、地形以及月壳厚度数据等数据和已获得的研究成果,以多源数据融合的方式,依据盆地退化的程度对古月宙
学位
微信作为当前最大的社交应用平台,其在社交媒体中占有重要地位。随着新媒体技术不断发展,各地的政务不断向互联网技术延伸,地方政府将微信作为传达政务的重要途径。各级党政部门开通政务微信公众号,有利于促进党政信息公开,拓宽人民群众联系政府和参政议政的渠道,有利于党政信息资源的开发利用和增值,提升群众满意度和获得感,实现全社会共享。但从近几年的发展情况来看,政务微信的建设和运营逐渐暴露出许多深层次的问题。多
学位
在新媒体时代,人们的出行决策时刻受到社交媒体中口碑信息的影响,旅游目的地品牌推广的主要途径也逐渐从非社交媒体转变到微博、微信和抖音等社交媒体上。旅游目的地如何通过社交媒体平台来创建旅游品牌,并与游客建立起长久而稳定的品牌关系,是当前旅游发展重要的问题。本论文主要对宁夏旅游目的地品牌的社交媒体传播现状,以及优劣势、机遇与不利因素进行分析,提出提升宁夏旅游目的地品牌传播水平的思考和建议。笔者在梳理宁夏
学位
三维人脸重建技术在计算机视觉领域中是一种非常重要的研究方向,在3D游戏,虚拟现实,和元宇宙等方向有非常广泛的应用前景。传统的三维人脸重建算法都是基于3DMM模型的改进,通常估计先验模型的形状,纹理,表情参数获取三维人脸结构模型,对面部细节和高频特征的三维表达存在缺失,重建出的模型都趋于平均模型,细节特征不明显。为了重建出模型具有明显的细节特征,无模型的方法成为了重点的研究方向,但是现有的无模型重建
学位
制造业作为实体经济的重要基础,是我国的立国之本、强国之基。随着全球竞争加剧,国内制造业面临新的挑战。伴随着复杂的工况和实时生产的扰动性,使得制造业生产面临更多的挑战,需要我们紧跟新制造概念的发展,解决实际制造过程中存在的动态不确定性、复杂性以及实时响应性问题。然而,生产调度作为制造系统的基础,生产调度的优化是先进制造技术和现代管理技术的核心。作业车间调度问题是一类基础而复杂的生产调度问题,针对以上
学位
随着互联网与智能终端的发展,越来越多的数据被产生,面对大量无规则且复杂的数据如何从中提取有用信息是目前迫切需要解决的问题。聚类作为数据挖掘领域核心方法之一,可以将无标签的数据进行划分,因此,广泛被应用于多个领域。为了顺应时代的需求,越来越多的聚类分析方法被提出,其中,密度峰值算法(DPC)具有输入参数少、对数据集分布的状况和噪音数据都不敏感以及聚类效率高等优势,使得该算法自发布以来备受国内外学者关
学位
文化生态保护实验区是整体保护“活文化”和文化生态的一种有效方式。本文通过分析陕北文化生态保护实验区内的非遗资源,分别从非遗资源特征、空间分布特征两方面进行研究分析,衡量陕北地区非遗资源是否适宜转化为旅游产品,在陕北全域范围内分析得出不同程度旅游开发适宜性的县区,为陕北国家文化生态保护实验区非遗的旅游开发提供依据,促进陕北地区非遗资源的保护与发展。通过适宜性评价,最后得出延安市宝塔区的旅游适宜性水平
学位
随着当前社会矛盾的日益突出,城乡居民消费结构的进一步升级,葡萄酒产业市场前景广阔,“葡萄酒+旅游”新业态呈现巨大发展潜力。面对新时代新机遇,我国的葡萄酒产业完全可以大有所为,并形成千亿级规模的产业集群,这不仅是贯彻落实习近平总书记对宁夏乃至中国葡萄酒产业重要指示,也是实现中国葡萄酒“当惊世界殊”愿景目标的良好契机。目前我国的葡萄酒旅游目的地的发展跟不上旅游需求的步伐,葡萄酒旅游目的地的评价和建设迫
学位