论文部分内容阅读
图像翻译的本质是从一个源域图像到目标域之间建立映射关系,这个映射可以是1v1,也可以是1v多,甚至多v多。显而易见的是,图像翻译在计算机视觉和计算机图像学领域具有巨大的实际应用价值,比如图像上色问题,生活中的灰度图像如何快速地转换为彩色图像。最近,基于对抗网络的图像翻译方法为图像域之间的映射提供了一个通用的框架。基于对抗网络的图像翻译算法已经被应用到更广泛的领域,比如图像的风格化、卡通化、图像的修复,以及用来解决领域自适应问题。细节上,先前的图像翻译算法可以被归结为两大类,一类是基于数据对的学习方法和基于分组数据的学习方法。本文认为它们都是基于监督学习的算法。当对分组的量和每个组中的样本需求都是很大的时候,这些算法依然需要大量的人力去做标注。为了缓解这个问题,我们猜想了两个模型,一个是基于稀疏分组数据的模型。稀疏分组数据意味着数据集中只有少部分具有分组的组标签,而大部分是不具有任何标签。对于具有标签的数据,它们可以做分类的学习,其余的无标签数据则可以利用无监督学习算法去提高网络的表征能力,进而提高网络分类的表现力,无标签数据还可以用来稳定对抗网络的训练。从某种程度上说,稀疏分组学习是一种半监督学习算法。显而易见的是,稀疏分组学习会大量地减少对数据中的分组标签的要求。我们在本文中也猜想了对应于稀疏分组的网络架构,并将整个模型简称为SG-GAN。当数据完全稀疏,也就是数据集没有任何标签,此时的数据形态本文称其为混合数据。我们同样提出了面对混合数据的模型,也就是通过最大化互信息来从混合数据中发现语义信息,最后控制低维度的隐变量来改变高维图像空间的语义内容,实现图像翻译的目的。在本文中,我们将此模型简写为ST-GAN。为了验证猜想的SG-GAN和ST-GAN算法的有效性,我们将它们应用到人脸语义属性的调整。人脸语义属性的调整,可以被归类为图像翻译领域的一个在人脸数据上特定应用。比如对于属性年龄,人脸语义调整的目的则是希望在保持输入图像中身份信息的同时,改变他的年龄。本文猜想的SG-GAN在人脸多个属性调整上取得了高质量的转换结果,在标准的定量和定性的评估上超过了同时期的最优算法。除此之外,在转换的过程中为了保持输入人脸的身份信息,我们提出了一个自适应残差图像学习。本文猜想的ST-GAN,据我们所知,是第一个在完全没有任何标签信息上的图像语义翻译算法,尽管从质量上很难和最优的进行对比,但是ST-GAN利用无监督学习算法去捕获数据中的语义信息,然后利用这些语义信息能够做到先前的算法很难实现的属性调整。除此之外,本文为了提升网络语义发现的明确性,我们提出了一个局部互信息最大化方法去缓解这个问题。