论文部分内容阅读
近年来,人工智能兴起,深度学习是目前人工智能的主要研究领域之一。深度学习是一种数据驱动学习方法,对数据的数量和质量的要求都很高。在众多应用领域中,很多数据需求都可以满足,但是在部分领域中,例如金融风险,故障检测等方面,正常数据量和异常数据量是非常不对等的。数据集中,不同类别的样本量之间比例极度不平衡的数据集被称为非均衡数据集。由于非均衡数据集中不同类别样本所含信息量不同,训练过程中重要程度不同,使用传统的分类器去分类非均衡数据集的难度较大,而且普通的评估标准难以正确地评价分类器。本文提出一种基于生成对抗网络(GAN)的非均衡数据集分类方法,生成对抗网络由生成器和判别器组成,生成器的功能是尽量拟合输入真实数据的分布,判别器则是尽量去判断样本是来自生成器还是真实数据,两者之间相互竞争共同提升,直到达到纳什均衡。使用GAN的强大生成能力可以扩增非均衡数据集中少数类样本。本文首先介绍了传统分类算法和目前常用的非均衡数据分类算法以及分类效果评估标准。介绍了一种基于随机过采样算法的非均衡数据集数据分类方法。本文提出了一种基于WGAN(Wasserstein GAN)的非均衡数据集分类,使用WGAN稳定的生成能力解决了合成少数类样本多样性和稳定性不足的问题。WGAN对原始GAN的损失函数以及网络结构做了适当修改使得在训练方面更加稳定,使用WGAN的稳定生成能力去合成大量少数类样本,使得两类样本达到均衡化,使用均衡的数据集去训练WGAN的判别器和逻辑回归模型,分别使用WGAN的判别器和逻辑回归对测试集进行分类并对比。最后使用信用卡欺诈数据集进行实验,使用WGAN对数据进行均衡化的召回率达到了88%,而使用随机过采样后分类召回率仅达到85%,直接使用原始数据召回率仅达到了52%。由于有些非均衡数据集中少数类样本过少,限制了生成器的生成效果,本文提出了一种基于CycleGAN的非均衡数据集分类,利用CycleGAN域间转换能力解决了少数类样本过少,生成效果局限的问题。CycleGAN利用两个生成器和两个判别器对两类样本进行域间转换,利用CycleGAN的非成对的域间转换能力把多数类样本转换成少数类样本,使得两类样本达到均衡,再训练VGG网络用于分类,并和使用传统数据增强方法进行对比。最后使用人脸数据集进行实验,并证明了使用CycleGAN进行数据增强的有效性。本文主要使用了GAN的生成能力对非均衡数据集进行数据增强,再使用传统的分类器进行分类,所以后续工作可以利用判别器的强大判别能力对均衡化后的数据集进行分类。