论文部分内容阅读
生成式对抗网络(Generative Adversarial Nets,GAN)是一种深度学习模型,通过生成模型(generative model)和鉴别模型(discriminative model)之间相互博弈学习产生输出。本文采用生成式对抗网络技术,研究服饰(以鞋类为例)产品自动设计的问题,分别设计了SFGAN(Style Fusion GAN)以及SCGAN(Style Transformation of Clothing GAN)来实现服饰风格融合与服饰风格转换功能。本文主要工作内容如下:1.构建鞋类图片数据集,数据集包含高跟鞋、拖鞋、运动鞋、休闲鞋、皮鞋五大类,一共11466幅。其中高跟鞋3265幅,包含1637幅细高跟鞋和1628幅粗高跟鞋;拖鞋865幅;运动鞋2971幅,包含无鞋带运动鞋1352幅和有鞋带运动鞋1619幅;休闲鞋3633幅,包含无鞋带休闲鞋1971幅和有鞋带休闲鞋1662幅;皮鞋732幅,包含无鞋带皮鞋362幅和有鞋带皮鞋370幅。该数据集分辨率均为256×256。2.通过借鉴渐进式生成的网络思想,设计了专门的SFGAN网络来实现(鞋类)服饰风格融合任务。SFGAN的生成器网络深度为34层,包含19个卷积层(1×1、3×3的卷积核)、8个全连接层和7个上采样层。鉴别器网络深度为22层,包含15个卷积层(1×1、3×3和5×5的卷积核)、1个全连接层和6个下采样层。实验结果表明,(1)通过人眼主观鉴别的方式,SFGAN模型生成较为理想的效果占51.90%,比StyleGAN模型高出4.05%;(2)使用FID(Fréchet Inception Distance)评定指标,SFGAN模型的FID分数可达40.33分,比Style GAN模型低出1.45分。3.通过借鉴循环一致性损失的思想,设计了SCGAN网络来实现服饰风格转换任务。SCGAN的生成器网络深度为18层,包含4个卷积层(3×3、7×7的卷积核)、2个反卷积层(3×3的卷积核)和6个残差块(每个残差块包括2个3×3的卷积核)。鉴别器网络为5个5×5的卷积核。在SCGAN生成器的第3和第4个残差块中加入了注意力机制层,用带有注意力的特征图去代替传统的卷积特征图,以进一步提升模型的性能。实验结果表明,(1)通过人眼主观鉴别的方式,SCGAN模型生成较为理想的效果占56.00%,比CycleGAN模型高出7.50%;(2)使用FID评定指标,SCGAN模型生成较为理想的效果分数可达38.98分,比CycleGAN模型低出2.96分。