基于语义标签图的轻量级图像生成模型研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:yan8108
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于语义标签图的图像生成(语义图像生成),是指根据输入的像素级别的标签(语义标签图),去生成与真实图片接近的“伪真实图”。该任务可用于图像编辑、图像渲染等场景。语义图像生成任务一般用生成对抗网络(Generative Adversarial Networks,GAN)来训练,其往往需要大量的参数和计算力。在GAN模型结构与参数量足够大的情况下,其生成图像的质量尚且可观。但是,当应用场景的硬件条件比较苛刻(比如,显存容量少、计算资源有限)时,如果简单地将模型的结构与参数量缩小,其生成图的质量会大打折扣。针对目前语义图像生成模型过大的问题,本文针对轻量级的语义图像生成模型展开了研究。本文提出了基于信息熵增与知识蒸馏结合的方法,将模型大大缩小,减少了参数量与计算量,并尽量保证生成图与原始模型的生成图质量保持一致。本文的主要创新点包括:1)从信息熵的角度来分析语义图像生成的过程,提出信息熵增的方法来改变语义图像生成输入的起始信息状态(由非0即1的状态改变为服从学习到的高斯分布的随机值),使输入的语义信息更加丰富,提高输入的信息熵。2)将信息熵增与知识蒸馏有效结合,将学生网络的模型添加信息增益的模块,从教师网络中学习,生成的图像质量与教师网络接近,且模型大幅压缩,参数量和计算量是教师网络的近十分之一。本文在多个数据集上进行了多组实验,证明了本文提出的信息熵增思想的有效性和可靠性。学生网络不仅结构轻巧,且弥补了与教师网络的差距。
其他文献
<正>设计意图中国神州载人飞船成功发射,中国空间站的“天宫课堂”,都引发了大班孩子对中国运载火箭及载人飞船的兴趣。前期我们在班级开展了关于中国运载火箭的相关活动,在此基础上,我设计了“造火箭”活动,借助情境引入,让幼儿寻找制作材料、安装火箭零件,最终共同完成模拟火箭的发射任务,在此过程中感知和理解行与列,并通过层层的学习与挑战,不断激发幼儿参与活动的兴趣,培养幼儿认真专注、不怕困难等良好的学习品质
期刊
用于天文高分辨光谱波长定标的法布里-珀罗标准具(FPE)具有宽波长覆盖与密集透过峰序列的光谱,有望实现比传统定标源更高的波长定标精度。然而FPE透过峰波长是未知的,这为定标带来了挑战。本研究在不借助额外精密测量设备(如傅里叶变换光谱仪)情况下,使用天文高分辨光谱仪常规定标源钍氩灯(ThAr)为FPE提供波长信息,再利用FPE密集的透过峰序列以及电介质反射膜穿透深度与波长关系的平滑性质,修正波长信息
期刊
本论文包含两部分的工作,第一部分是N-芳基仲酰胺与异腈酸酯成环反应合成2,3-二取代喹唑啉-4-酮的方法学研究(第二章),第二部分是四氢异喹啉生物碱(-)-quinocarcin的不对称全合成探索(第三章)。一、N-芳基仲酰胺与异腈酸酯成环反应合成2,3-二取代喹唑啉-4-酮的方法学研究(第二章)发展了以Tf2O/2-Br-Py体系为基础,活化仲酰胺并与异氰酸酯成环反应直接制备2,3-二取代喹唑啉
学位
光谱探测技术在未来智能装备中发挥着视觉检测、理化分析和过程控制等智能识别的作用,广泛应用于食品安全、医学诊断、环境监测、防伪鉴别、植物病害抑制、预警侦察等领域。传统光谱探测系统因受限于分光元件而存在体积大、成本高和定制化能力有限等问题。基于微机电系统(MEMS)技术的法布里-珀罗(FP)滤波芯片为微型化、低成本和定制化的光谱探测系统提供了新的解决途径。近三十年来,针对实用化MEMS-FP滤波芯片的
期刊
主客体化学是二十世纪七十年代由超分子化学衍生出的一门分支学科,经过五十多年的迅速发展,已经成为联系有机化学、生物化学、高分子化学以及新型材料科学的重要纽带,并且在医学、影像学、仿生学等领域有着广阔的应用前景。基于主体、客体之间的主客体组装,客体分子的选择多为平面的多环芳烃,而巴基碗并不是一类常见的客体分子。巴基碗作为富勒烯的片段分子,是一类碗形的芳香烃化合物,主要分为心环烯(Corannulene
学位
立体视觉对象的表示与识别在工业制造与智能交通中扮演着重要的角色,因此吸引了学术界的广泛关注。立体视觉对象常见的表示形式有:点云、视图、体素、网格等。对于立体视觉对象,不同的表示形式有着完全不同的数据组织结构,因此使得立体视觉对象的学习任务难度大增。特别是在多模态的联合表示学习上,不仅要解决单一模态的学习问题,还要提出合适的框架去融合不同模态的数据表示,从而达到对立体视觉对象更加精准的多模态联合刻画
学位
谣言的广泛传播对社会的危害性极大,轻则侵犯公民或社会组织的个体权利,重则造成社会恐慌,摧毁社会信任体系,甚至危害国家安全。很多学者研究了辟谣的相关方法,然而目前的辟谣工作仍然需要大量的人工干预,存在着工作内容繁琐、辟谣时效性滞后等问题。辟谣文本生技术能够极大降低辟谣工作的人工成本和时间成本,是及时抑制谣言传播、有效降低谣言社会危害性的关键技术。然而,目前关于辟谣文本生的方法还鲜有学者研究。辟谣文本
学位
从目前已经发布的政府文件中的有关监管要求归纳分析当下NFT交易平台合规经营的去金融化路径。就本身的属性而言,NFT与FT的核心区别在于它的稀缺性、不可分性。从近期国内政府发布的一系列公告、通知或文件来看,数字藏品的去金融化工作则属于平台是否能存续运营的关隘所在。
会议
作为燃料电池(FC)的关键组件,离子交换膜对于其性能有着至关重要的影响。相较于质子交换膜燃料电池(PEMFC),碱性阴离子燃料电池(AEMFCs)现已展现出诸多优势,然而其主要短板依旧存在于离子交换膜。目前,阴离子交换膜(AEM)研究与商业化生产存在的主要问题包括离子电导率较低、碱稳定性较差、合成成本过高等。当前研究人员普遍认可的提升AEMs碱稳定性的方法有选用碱稳定性较高的离子交换基团,减少膜内
学位
随着深度神经网络在视频内容理解与分析任务上取得卓越的效果,基于深度学习的自动视频描述已经广泛的部署在现实应用中。视频自动描述的主要挑战是从大量的帧中捕获关键视觉信息,比如物体、动作和时空关系,并用语法正确的句子进行整体的描述。现有的视频描述方法大多集中于利用注意力机制,捕获全局视频中的关键帧或帧中的关键区域来对视频的语义信息进行建模,而忽略了视频本身的层次结构。视频内在的这种由粗粒度到细粒度的层次
学位