基于生成对抗网络的无监督图像风格迁移研究

来源 :河南科技大学 | 被引量 : 0次 | 上传用户:changjian200910
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像风格迁移是指从一组内容图像中提取出图像语义内容、从一组风格图像中提取出风格,然后将图像语义内容和风格相结合,形成风格化图像的过程。图像风格迁移具有一定的商业价值,目前市面上有很多关于图像风格迁移的商业应用。此外,对于图像风格迁移的研究有助于解决其他问题,已有研究人员通过图像风格迁移的方法实现了图像去雾、图像修复和图像超分辨率等。图像风格迁移最开始是通过非真实感渲染的方法和纹理合成的方法实现的,但由于上述两种方法通常仅使用了一幅风格图像的低级特征(例如纹理信息和几何信息等),它们难以扩展到其他风格,并且风格化效果也不是很理想。得益于深度学习和卷积神经网络的发展,基于卷积神经网络的神经风格迁移方法通过卷积神经网络来提取图像的低级特征和高级特征,能够生成令人惊艳的风格化图像。但是,神经风格迁移方法存在风格化速度缓慢、难以扩展等问题。生成对抗网络(Generative Adversarial Networks,简称GAN)是近几年计算机视觉领域的研究热点。GAN能生成以假乱真的图像,在图像生成、图像超分辨率、图像复原等计算机视觉任务上取得了令人印象深刻的结果。最近,大量研究通过GAN来实现图像风格迁移,特别是无监督图像风格迁移。目前,基于GAN的无监督图像风格迁移大多是通过Cycle-Consistent Adversarial Networks(Cycle GAN)的循环一致的思想来实现的,这些方法存在一些不足之处。首先,Cycle GAN冗余的网络结构导致此类方法占用大量的存储空间、训练缓慢并且训练不稳定。其次,Cycle GAN循环一致的思想间接的约束内容图像的语义内容,导致过度风格化的问题。此外,还存在一些通过神经风格迁移的方法实现的基于GAN的无监督图像风格迁移。在实验中笔者发现,通过神经风格迁移的方法来保留内容图像的语义内容往往会产生风格化较弱的现象。这是因为该类方法使用的Visual Geometry Group(VGG19)具有较强的特征提取能力,对于内容图像的语义内容约束过强,导致了风格化较弱的问题。针对上述Cycle GAN类的方法存在的问题,本文提出了一种基于卡通损失的生成对抗网络(Cartoon Loss GAN)用于卡通化,它通过模仿先绘制草图后着色的卡通创作过程来生成生动的卡通风格图像。本文提出的卡通损失函数可以通过模仿绘制草图的过程来学习卡通图像平滑的表面,通过模仿着色的过程来学习卡通图像的颜色。本文通过重用判别器的编码器部分构建一个紧凑的基于GAN的卡通化体系结构。本文提出了一种初始化策略,用于重用判别器的场景,使本文提出的Cartoon Loss GAN的训练更容易、更稳定。大量的实验结果表明,本文提出的Cartoon Loss GAN可以生成生动的卡通风格图像,并且优于四种代表性方法。消融实验证明了本文提出的卡通损失函数的有效性和合理性。针对上述神经风格迁移类方法存在的问题,本文提出了一种基于过程独立生成对抗网络的无监督图像风格迁移方法。本文对神经风格迁移类方法保留输入现实场景图像的语义内容的方式进行了改进,本文的改进可以克服该类方法风格化不明显的问题,生成令人印象深刻的风格化图像。此外,本文提出了一种基于过程独立生成对抗网络的无监督图像风格迁移模型,将图像风格迁移分为了编码、风格化和解码三个独立的过程。这种过程独立生成对抗网络具有良好的可解释性和可控性。大量的实验结果表明,本文提出的方法可以生成生动的卡通风格图像,并且优于四种代表性方法以及笔者在第3章提出的Cartoon Loss GAN。消融实验证明了本文提出的方法的有效性和合理性。
其他文献
近几年,计算机视觉在人工智能领域迅速发展,如何实现计算机更好的理解人类情感,进一步改变人与计算机的关系受到越来越多研究者的关注。表情识别是一个横跨人工智能、神经学、计算机科学等领域的交叉学科,在计算机视觉、临床医学、虚拟现实以及车辆等领域有很大的应用价值,极大的推动了科学的发展和社会的进步,其广泛地应用在社会生活中,具体应用实际场景有人机交互、在线教育、医疗服务等。在人脸表情识别的流程中人脸检测是
学位
随着移动互联网的蓬勃发展,繁杂的信息以各种形式出现在了人们的生活当中。文字作为信息的主要载体之一,在生活中承担着信息传播桥梁的作用。如今,面对海量的数据,依靠计算机对文本进行处理就成为了极佳的,也是必要的选择。文本分类(Text Classification)作为自然语言处理(Natural Language Processing,NLP)领域最基础的任务之一,作用巨大,影响深远。从初期基于情感词
学位
随着我国铜合金消费量和生产量的不断增长,国内企业生产的普通产品产量过剩,不满足当前市场的需求,其产品生产效率、研发以及生产工艺等方面都与国外企业有了较大的差距。将基于大量数据的数据库技术与数据挖掘方法相结合是对工业大数据合理使用的新思路,根据目前实际存在的问题,本文以不同牌号的铜合金数据为研究对象,开发了由实际生产参数驱动的集数据存储与分析一体化的系统,包括数据录入、检索以及性能预测等功能模块,并
学位
中医学是中国传统文化的宝贵传承,拥有一套完整的诊断理论体系,为人类的健康生存发展付出了难以估量的贡献。中医独特的诊疗模式为现代医学提供了很多具有参考价值的诊断依据,受到世界各国人民的欢迎,引起了医学研究者们的广泛关注。但是,传统中医独特的诊疗方法也给中医学的传播带来了困难,中医诊断方式难以客观量化表述,诊断过程也跟中医生的主观经验密切相关,中医各种语言以及辨证辨病原理靠经验传承,缺少既定标准。鉴于
学位
肺癌作为我国第一大癌症有着极高的病死率,症状显现晚不易被发现的特点导致诊断出时往往已经到了肺癌晚期,5年生存率更是仅有16.1%。因此,肺癌的早期发现与诊断就显得尤为必要,临床诊断中通过对患者肺部进行CT图像扫描,对扫描CT图像进行诊断从而确定肺结节的状态,为研判病情、辅助治疗提供不可替代的帮助。近代医学科技的高速发展,CT图像成像更加精准,逐步成为肺病治疗的常规检查手段,导致肺部CT图像呈指数型
学位
随着近些年人工智能、机器学习和深度学习技术从兴起逐渐趋于成熟,以微芯片为载体的类脑神经网络技术也受益于集成电路新工艺和设计技术的发展,在硬件结构及其相应的加速算法上不断涌现崭新的技术,从而引领着人类社会向更为智能化的未来科技时代突飞猛进。基于电子硬件实现的基本神经元及其构建的大规模人工神经网络模型可追溯到上世纪60年代,近些年由于大数据分析、智能感知、动态图像和音频识别等技术的推动,用高性能的神经
学位
随着人工智能技术的快速发展,自动驾驶汽车已成为全球汽车产业发展的战略方向。目标检测作为自动驾驶感知系统的重要组成部分,其检测结果直接影响后续决策行为,进而影响自动驾驶的安全性能。传统目标检测算法的特征泛化能力较差,算法结构设计复杂,难以达到自动驾驶对检测精度和速度的要求。基于深度学习的目标检测算法可有效改善上述不足,满足自动驾驶感知需求。本文针对自动驾驶感知需求,对基于深度学习的二阶段目标检测算法
学位
在近十年中,人们对人机交互以及情感计算需求的提升使面部情绪识别也成为研究和发展的主要方向,人们对人工智能领域的更高追求使得基于深度学习的面部情绪识别网络需要嵌入智能设备中以应用于现实生活的场景当中,然而传统的人脸表情识别研究中存在模型训练难、应用落地难以及小样本学习困难等关键技术问题和挑战,并且现有的人脸表情数据集在一些负面情绪上的样本数量较少,存在面部情绪样本不平衡的问题,本文针对上述问题进行了
学位
燃料电池混合动力汽车(Fuel Cell Hybrid Electric Vehicle,FCHEV)凭借其零排放、高效率、低噪声等优点被认为是未来交通领域最具有研究前景的新能源车型之一。然而,燃料电池存在着动态响应慢、功率密度低等缺点,单独使用其作为能量源将无法满足车辆的负载需求。在配备有锂电池以及超级电容的燃料电池混合动力汽车当中,超级电容和锂电池共同作为辅助能量源,为车辆提供加速和起动时所需
学位
复杂动态网络,指由大量动态节点以复杂的拓扑结构耦合而成的网络,因其在不同领域的广泛应用,于近年来引起了研究者们极大的兴趣。同步行为作为其最重要的集群行为之一,其典型应用包括多自主体一致性、混沌信号加密等问题,具有极大的研究价值。另一方面,网络化控制策略,近年来因其低成本、易调试、可远程控制等优点愈发受到研究人员的关注。复杂动态网络因其数据量庞大、节点的空间分布等特点而迫切的需要网络化、数字化的数据
学位