论文部分内容阅读
随着多媒体技术的飞速发展和大数据时代的到来,图像分类已经成为计算机视觉和模式识别领域的研究热点之一,其中基于深度学习方法的图像分类已经取得了很大的进展。生成对抗网络GAN(Generative Adversarial Networks)作为生成器和判别器的组合,是近年来深度学习领域中为数不多的一项新锐技术。在图像分类方面,GAN凭借可以在训练阶段提取真实图像和生成图像丰富特征的优势正逐渐应用于监督和半监督的图像分类任务中。目前基于GAN的图像分类主要通过对判别器加以改进,来实现图像分类的特征提取。现有基于GAN的图像分类精度还有待提升,原因在于:一方面GAN中判别器的功能单一,特征提取能力偏弱;另一方面GAN本身难以收敛,判别器的非线性拟合能力不足。针对GAN中判别器的特征提取能力单一的问题,本文对GAN的结构进行改进,提出一种具备辅助编码功能的生成对抗网络AEGAN(Auxiliary Encoder GAN)模型。将编码器融入判别器框架,让编码器和判别器共享大部分权重,从而使判别器可以提取到真实图像和生成图像的主要特征,最终使判别器提取的特征更加丰富,改善常规GAN中判别器功能单一问题。此外,针对无标签的生成过程,提出基于AE-CGAN(Auxiliary Encoder Conditional GAN)的图像分类方法,解决无标签生成过程造成的生成样本质量不高的问题。针对GAN中生成器难以收敛和判别器拟合能力不足的问题,提出一种基于领域匹配生成对抗网络DMGAN(Domain Matching GAN)的半监督图像分类方法。首先在现有的半监督GAN的基础上,在生成器中引入真假样本分布的最大均值差异损失,此时最大均值差异损失等效于图像内容损失,指导生成器优化的方向,解决GAN难以收敛的问题;其次在传统判别器的结构中添加卷积区域的注意力机制模块,使判别器学习到模块输入特征图的重要特征,增加判别器的非线性拟合能力,提升判别器网络的分类表现。在MNIST、CIFAR-10、Fashion-MNIST和SVHN数据集上的实验结果表明,与传统基于GAN的图像分类方法相比,基于AEGAN的图像分类方法和基于DMGAN的半监督图像分类方法分别有效提升了图像分类精度。