论文部分内容阅读
图像识别的核心是如何学习到判别性强,鲁棒的图像特征。性能优良的特征有助于图像识别与分析。但因图像内容非常复杂,易受遮挡、光照、尺寸、形变等因素的影响,获得判别能力强的特征非常困难。如何能够有效地提取图像特征,目前仍然是人工智能,模式识别和计算机视觉等领域研究的重点内容之一,本文以自编码器和生成对抗网络两种模型为基础框架,研究了深度学习方法在图像特征提取及其在图像识别中的应用。深度学习具有强大的,从一般抽象到高度抽象的多层次数据表征能力,它持续吸引着众多的研究人员和资金投入其中。虽然深度学习已经在图像,语音和信号处理等多个领域都取得较好的成绩,但是仍然存在一些问题和需要改进的地方,比如如何将鉴别信息有效地嵌入到特征学习中,如何将大量的无标记数据融入到有标记数据中统一地进行学习,如何提取到可解释的数据表示等问题,本文主要针对以上问题,提出几种基于自编码器和生成对抗网络的深度学习方法来提高模型的泛化能力。本文主要工作包含以下几个方面:(1)提出了一种标签一致性约束的稀疏自编码器模型。自编码器是一种具有快速推理结构的神经网络模型,如稀疏自编码器,非负约束自编码器等,但是这些自编码器都忽略了数据之间的关系,不易学习到鉴别性强的特征。针对以上问题,本文提出一种标签一致性约束稀疏自编码器模型,这种自编码器在特征学习的过程中,通过惩罚数据特征到其类中心的距离,将中心损失加入到损失函数中,使得数据在重构的过程中,能够学习到数据的鉴别性结构信息。另外还可以将这种浅自编码模型堆栈成深层模型,通过对深层网络预训练加微调的方式,进一步提高该模型的多层次抽象特征学习能力。不同数据集上的实验验证了标签一致性约束有助于提高自编码器提取到具有鉴别性的图像特征,是一种有效的深层模型初始化策略。(2)提出了一种图拉普拉斯约束的阶梯网络模型。阶梯网络是一种以深度自编码器为基础框架的深层次网络模型,这种网络能将监督学习和非监督学习融入到同一个框架中进行学习,这种半监督学习的策略有助于提高监督信息的利用效率和非监督特征学习的判别性。为了进一步将流形结构嵌入到阶梯网络中,本文将图拉普拉斯矩阵引入到这个模型中,提出了基于图拉普拉斯流形正则化约束的阶梯网络,这种网络将所有样本,包括有标记样本和无标记样本,都映射到同一个图中进行学习。这种约束可在数据重构和特征学习的过程中起到局部约束的作用,进一步提高了阶梯网络的半监督学习能力。在实验阶段,建立了全连接形式和卷积形式的拉普拉斯阶梯网络模型,并在手写数字数据集和物体识别数据集上进行了验证,实验结果证明了该方法在图像识别中的有效性。(3)提出了一种均值与方差特征匹配的生成对抗网络模型。生成对抗网络是一种深度生成模型,这种网络假设所有样本,均是由一个潜在的模型生成的,所以生成对抗网络可用于半监督学习。改进的生成对抗网络(Improved GAN)是一种先进的生成对抗学习方法,提出了特征匹配的训练方法,有效地提高了生成对抗网络的训练稳定性。但是这种方法只将特征的一阶矩均值作为统计变量来进行特征匹配,这样的做法不能很好地描绘特征分布,且不能很好地将原始数据的特征分布与生成数据的特征分布进行匹配,所以本文将特征的二阶矩方差加入到特征匹配的训练中,提出一种基于均值与方差特征匹配的生成对抗网络,这种网络使得生成数据和原始数据的特征匹配度更高,能更有效地抓住数据的流形结构。实验验证了加入方差的特征匹配方法有助于进一步提高生成对抗网络模型的半监督分类性能,在有标记数据量较少的情况下,提升效果更为明显,而且这种网络能生成较为真实的图像。(4)提出了一种用于解耦表示学习的双编码-解码结构的生成对抗网络模型。为了得到可解释表示,解耦表示学习常常用于分析深层神经网络。本文以人脸数据为例,论证了生成对抗网络的解耦表示学习能力,并分析了解耦后的特征有助于提高鲁棒性。解耦生成对抗网络(DR-GAN)能将人脸身份信息从姿态属性中解耦出来,然后利用解耦后的人脸表示进行人脸识别,提高了人脸表示在抗姿态干扰方面的能力。但是这种方法存在缺点,第一,DR-GAN使用传统的真伪判别作为其对抗函数,不利于模型的训练稳定性和收敛速度,第二,这种方法利用独热向量(One-Hot Vector)来表示姿态,丢失很多姿态细节信息,而且这种离散的表示,忽略了姿态呈连续性变化的潜在属性。针对以上问题,本文提出了双编码-解码结构的生成对抗网络,这种网络利用自编码器来作为其判别器的一部分,引入了基于像素损失的对抗学习方法,有助于提高模型的训练稳定性和生成真实图像的能力。用一个连续性变量来表征人脸姿态,作为先验加入到模型训练中,并用回归代替分类的方式对其姿态进行评估,这种方式有助于提升模型的解耦表示学习能力。实验结果表明,所提的方法在姿态不变人脸识别和生成跨姿态人脸的任务上都有较好的表现。