基于生成模型的图像属性转换技术

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:javaauto
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像属性转换是一项新兴的图像处理技术,其任务是根据使用者需求,对图像中的一种或多种属性进行相应转换,同时保证生成图像的高质量、真实度和多样性。图像属性转换技术的应用十分广泛,涉及电影制片、照片编辑、电子商务等众多行业,也因此成为了当今计算机视觉领域的热门研究课题。早些年间,图像属性转换的主要形式为神经风格迁移,依靠卷积神经网络进行学习。由于传统卷积神经网络需要设立明确的训练目标,所以无法适用于其他的图像属性转换任务。后来,随着生成对抗网络的日趋成熟和不断发展,越来越多的图像属性转换任务得以解决,其中包括图像转化、人脸属性迁移、人物服饰转换等。尽管现有的图像属性转换技术已经取得了不错的效果,但是在生成质量上仍有着较大的提升空间。因此,本文在最具应用前景的人脸属性迁移和人物服饰转换两项任务上进行探索,提出了基于多尺度特征融合的人脸属性迁移方法以及基于融合注意力机制的人物服饰转换方法。现有的人脸属性迁移方法大多采用L1范数作为重建损失函数,一方面导致了图像的整体模糊,另一方面限制了网络的推断能力。此外,传统的单尺度卷积生成器已经不足以提供充分的上下文信息,来迎合细粒度生成的需求。针对这些问题,我们引入了多尺度结构相似度指数(MS-SSIM)作为循环一致损失函数来重建图像。不同于L1范数,MS-SSIM衡量图像整体结构的相似程度,而非强制每个像素都接近,这种方式不仅可以避免图像的整体平滑,而且更符合人眼视觉系统的特点。此外,MS-SSIM还放宽了循环一致约束,从而赋予网络更大的自由度以进行合理的推断和想象。为了提高生成质量,我们还开发了基于空洞卷积的多尺度特征融合模块,并将其结合到生成器中。多尺度特征融合模块是一种非常有效的全局上下文先验来混合多尺度特征,从而极大地促进细粒度的纹理和颜色生成。不仅如此,多尺度特征融合模块以不增加额外计算量和参数量的方式,扩大了网络的感受野,所以是一种相当高效的特征学习方法。针对现有人物服饰转换技术难以捕捉长距离相关性、无法充分利用语义信息等问题,我们采用了由粗到细的两级生成对抗网络结构,并且在第二级网络中融合了软注意力、自注意力和风格化注意力三种机制。软注意力层强化了生成图像与语句的关联性,使得特征图上的每个位置都可以寻找到句子中最相关的单词,从而有效地促进细粒度的文字到图像合成。自注意力层则弥补了传统卷积网络的局部性,能够显式地捕捉图像上的远距离相关性,不仅为细粒度生成提供了支持,还加强了图像整体的协调性和一致性。风格化注意力层通过逐通道内积和特征图再校准,来建立特征之间的依赖关系,从而有效促进纹理生成和精细上色,提高网络进行合理推断和想象的能力。在实验阶段,我们选择了弗雷歇距离(FID)作为质量评估指标,并通过定量实验验证了本文提出方法的有效性。另外,我们还进行了多项定性对比实验和用户调研,更直观地展示我们生成结果的高质量,从而有力证明本文提出的方法已经超越目前的最先进方法。
其他文献
太原西山地区煤矿众多,煤炭开采时间长,产生的煤矸石占用了大量的土地资源。随着对西山地区生态环境的治理,部分煤矸石污染场地重新被用于工程建设。目前,大部分的对煤矸石的研究主要集中在煤矸石中的微量有毒有害元素释放以及这些有毒有害元素在土和水体中的富集,并未对受煤矸石污染前后土体的宏观物理力学性质、微观结构及污染机理进行研究。本文主要以太原西山矿区官地矿煤矸石及矸石堆周围黄土为研究对象,通过X荧光光谱分
近年来智能监控、人机交互、智能家居、自动驾驶等领域的发展对于人物及其行为的检测与跟踪的研究提出了需求。识别和跟踪人体的骨架结构是人物动作分析的重要基础,目标检测与跟踪技术也迎来了新的发展需求——人体姿态估计与跟踪。姿态估计要求准确识别和定位图像中人体骨架关键点的位置;姿态跟踪则是利用视频中前后帧的关系检测和跟踪视频中的人体关键点。本文主要研究在自主识别目标人物基础上的单人姿态估计与跟踪,即利用目标
为保障广州地铁某区间盾构隧道正穿上软下硬灰岩地层高速涵洞桩基过程中高速涵洞的安全,选取3种不同加固处理方案进行综合比选后,采取斜向旋喷桩+筏板+复合地基加固处理方案。利用三维有限元对桥梁桩基沉降进行计算预测分析,并与盾构掘进施工监测数据进行比对分析判断。理论计算分析及施工监测结果表明:1)多角度全方位旋喷加固地层可有效避让既有桩基;调整排泥量、控制地内压力及控制喷射注浆引起的地基隆起与下沉等成桩特
数字散斑干涉(DSPI,Digital Speckle Pattern Interferometry)作为一种全场非接触式光学测量技术,在物体形变、位移、振动等物理量测量方面具有广泛的应用。而散斑干涉图像处理作为数字散斑干涉测量的关键一环,对形变测量精度、测量量程具有重要影响,因此对散斑干涉图像处理技术的研究十分重要。本文介绍了数字散斑干涉形变测量基本原理以及散斑干涉图像处理基本方法,对散斑干涉图
唇语识别是一种可以仅根据说话人的唇部运动状态中预测出说话人说话内容的技术,在计算机视觉和自然语言处理的交叉应用中具有极其重要的意义。比如在嘈杂环境中或远距离交流时唇语识别可以使用视觉信息预测说话人试图表达的内容,并可以与音频识别配合增强识别的准确率。唇语识别也可应用于音视频对齐,利用视觉特征与听觉特征的序列匹配实现对音视频的修正。另外,唇语识别还可以被应用于抵抗重放攻击的活体检测器,作为其他生物特
自动驾驶是智能交通与人工智能技术融合的交叉领域,旨在实现无人操控的智能化车辆行驶,往往需要结合多种人工智能技术。最早应用在自动驾驶系统中的技术为基于二维图像的目标检测技术,然而粗粒度的推理任务在应用中无法准确预测物体的真实形状,并且相机图像的局限性也增加了预测的不确定性。因此,探究鲁棒的三维点云数据形式结合细粒度的实例分割推理任务对自动驾驶技术的研究具有重要意义。本文的研究内容便是自动驾驶场景下基
随着社会的不断发展和进步,城市中的监控设备覆盖率越来越高。普通监控条件下的行人外观信息(包括人脸、服装、体型)和行走的步态信息都在一定时间限度内有着较高的可靠性和稳定性。同时这些信息的采集可以非常容易的获得。因此很适合在人员较多的公共场所或注重客户体验的商店中,借助人的外观和步态等信息完成身份识别的工作。本文中首先分别对行人的外观特征提取网络和步态特征提取网络进行了研究改进。之后尝试将外观特征和步
区块链技术是一种新型的去中心化账本技术,它可以在没有可信第三方参与的情况下,在多个互不信任的参与方之间构建全局的信任。由于其独特的数据结构设计,区块链上的交易信息具有完整性及不可篡改性。区块链技术在金融服务、物联网、征信管理等领域都有广泛的应用场景。共识机制是区块链的核心技术,系统中的共识节点通过共识机制来共同维护全局的账本。工作量证明(Po W,Proof of Work)类共识机制应用最为广泛
随着“智慧城市”的建设快速发展,近年来我国城市建设和信息化的应用技术水平不断提高,物联网产生的信息量不断增加,如何更快更有效地分配和处理信息是当前一个非常重要的问题。从这个意义上说,信息中心网络(ICN)正是为了满足日益增长的对高效率内容分发的需求而设计的。不同于典型的基于IP的请求机制,物联网中生成的信息可以被视为内容,将物联网内容与名称相关联使用户能够直接请求他们真正想要的内容,此外ICN特有
近年来,深度神经网络在二维图像领域的应用取得了很大的成功,随着三维传感器的普及,机器人可以直接通过深度相机获取深度数据,如何利用三维信息去提升机器人的感知能力也成为了计算机视觉领域的一大热点,本文主要针对机器抓取任务,利用三维信息实现对物体的识别和姿态估计。本文研究物体的机器抓取中的两个核心感知算法,包含三维识别和姿态估计,其中姿态估计是基于标准模型的相对姿态估计。抓取过程中首先需要知道物体的位置