基于生成对抗网络的两类非平衡数据分类研究

来源 :河北大学 | 被引量 : 0次 | 上传用户:HUAXIAHK
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的进步,我们已经进入了海量数据的时代,人们生活的方方面面都会产生海量数据,这些数据属于各种各样的类别,在现实生活中这些类别下的数据大多数都是非平衡的。例如病例诊断,天气气候分类,野外稀有物种的检测、垃圾短信检测等。如何有效准确地分类这些非平衡数据就变成如今一个非常热门的研究领域。绝大多数的分类算法在分类时会偏向多数类别的群体,而对少数类别分类效果不好,在一些极端情况下甚至会完全忽略少数类别。针对非平衡数据分类问题,研究将生成对抗网络(Generative Adversarial Network,GAN)应用在非平衡数据分类问题中非常有意义。本文的主要工作如下:1.提出了改进辅助分类器生成对抗网络(Auxiliary Classifier GAN,ACGAN)的两类非平衡数据分类方法,本方法在ACGAN判别器的分类过程中引入了代价敏感性的思想,通过预测输入的样例是负类(多数类)样例还是正类(少数类)样例,对判别器函数加以改进。若判别器将正类样例错误分类为负类样例,则加大对其的惩罚力度,如果判别器将正类样例正确分类则减小惩罚力度。用这种方法来挑选出被错分类的样例并让网络对其继续训练,可以使生成器学到更多的样例特征,并扩充正类(少数类)样例,目的是为了提高判别器的分类精度更好的分类两类非平衡数据集。2.提出了基于条件生成对抗网络(Conditional Generative Adversarial Net,CGAN)的一种渐进上采样方法,该方法在CGAN原有的网络结构基础上,以迭代方式渐进对正类样例上采样。首先,从负类样例子集中采用不放回抽样方式,随机抽取一个负类样例的子集,与正类样例构造一个两类平衡训练集,然后,在平衡的训练集上训练一个带分类器的生成模型,最后,用训练好的生成模型生正类样例,以实现对正类样例的上采样;经过若干次迭代渐进上采样,以提高分类器的分类精度,用于两类非平衡数据分类。为了证明本文提出方法的准确性,在MNIST、Fashion-MNIST和CIFAR10这三个数据集上进行了实验验证,并与其他方法进行了实验对比,提出的两种改进方法在MNIST数据集上都获得最高的分类精度。在Fashion-MNIST数据集上,渐进上采样CGAN的分类精度要更高。在CIFAR10数据集上,两种方法的分类精度对比改进前的基础方法都有所提升。综上所述,本文提出的方法在这三个数据集上取得了比其他方法更准确的分类精度。
其他文献
属性约简是粗糙集理论中的研究热点。现有连续值数据属性约简模型的建立主要基于优势粗糙集、邻域粗糙集、模糊粗糙集理论与方法。然而连续值数据属性间不一定具有优势关系;基于邻域关系的约简算法由于属性量纲不同导致邻域半径难以统一,除此之外样本间模糊关系及邻域关系的计算代价一般来说也是较高的。为解决上述问题,本文将聚类粒化方式应用于属性约简过程中,对现有连续值数据属性约简方法进行了改进。提出了基于聚类粒化方式
学位
长尾分布数据分类问题是目前深度学习领域研究的热门方向之一,在计算机视觉领域中被称为长尾识别。长尾分布数据的头部少数类占据了大多数数据,而尾部多数类却占据了很少的一部分数据,当深度学习模型在处理这种长尾分布数据时会偏向头部类,产生很严重的长尾效应。因此,如何解决这种长尾效应是一项很有意义的研究工作。本文的主要工作包括如下两方面:(1)提出了一种基于双向聚类的长尾分布数据分类方法,该方法首先对头部类数
学位
随着深度学习的快速发展,卷积神经网络越来越广泛的应用到计算机视觉领域中。我们通过多步卷积、池化等操作可以实现对特征图的下采样操作,以扩大感受野并提高神经网络的提取能力。然而,在多数的计算机视觉任务里,如在目标检测、语义分割、超分辨率等领域中,对特征图进行上采样操作以保留图像的整体细节也很重要。在传统的上采样操作中,通常在原图像像素间采用插值算法填入新的像素信息。这会出现生成图像目标边缘信息误差较大
学位
随着互联网和电子设备的快速发展,图像、文本、音频等数据正在以不可想象的速度增长,此类数据蕴含众多的信息但无标签,人工为数据标注类别信息的代价大,但是对海量数据的智能管理已然成为一种现实需求和必然趋势。图像聚类分析从数据中挖掘有代表性特征对数据进行分类,在人工智能等很多领域广泛应用,越来越受到研究的重视。现有的聚类算法普遍存在训练误差较大、聚类性能依赖特征表达能力、泛化能力弱等问题。如何设计具有较强
学位
当面对一个分类问题时,如何从众多的可用算法中选择当下问题最适合的算法是一个具有挑战性的问题。相关研究表明分类算法的表现强烈依赖于数据本身的特性,因此人们相信更好地理解数据集对分类算法的研究发展至关重要。元学习将算法选择作为一项学习任务来解决,试图学习元特征和最佳算法之间的映射,而其核心问题在于元特征的构建,即定义哪些数据特征对算法选择最有价值。目前大部分的方法中只考虑了简单特征和统计特征,无法很好
学位
许多机器学习问题都可以表示成损失函数加正则化项的形式,目前最流行的求解方法是以随机梯度下降(Stochastic Gradient Descent,SGD)为代表的随机梯度优化算法。然而,最常用的小批量或单样本的随机梯度下降是计算速度与求解精度的折衷。随机梯度下降的优势主要有两点,一是每次迭代不需要计算全样本梯度,减少了计算量;二是避免由于样本数据过大导致的内存不足问题。但是这带来的问题是引入了随
学位
图像聚类是机器学习和计算机视觉中一项关键而又具挑战性的任务。传统的聚类方法,如K-Means,谱聚类,凝聚聚类等已广泛应用于各类任务,并取得了不错的结果。但对图像等高维数据进行聚类时,由于很难抽取到可判别的视觉特征表示,往往无法得到满意的聚类结果。为了解决该问题,很多研究者提出使用不同的深度卷积网络学习图像数据的特征表示,并结合传统聚类算法,实现图像数据的深度聚类,且已取得了较好的结果。本文主要基
学位
近些年,深度学习作为一种人工智能技术取得了前所未有的发展,在许多领域都取得了巨大的成功,展现出了强大的应用潜力。然而,最近的研究表明深度神经网络(Deep Neural Networks,DNNs)模型容易受到对抗样本的愚弄。所谓对抗样本是指那些通过精心添加一个不易察觉的扰动设计的对抗性样本,对抗样本可以愚弄一些最先进的DNNs模型,导致DNNs给出错误的分类结果,这阻碍了在现实世界中部署DNNs
学位
在数据挖掘领域,分类问题一直都是研究的重点,而传统的分类器大多是针对平衡数据进行分类,无法对不平衡数据进行准确地分类。为了解决数据不平衡分类问题,人工少数类过采样法被提出,但由于是随机选取少数类样本的近邻样本进行生成新样本,容易导致少数类边界模糊的问题。为了弥补这一缺陷,基于引力的人工少数类过采样法(GSMOTE)被提出。首先,该方法结合原始支持向量机和K近邻方法对原始数据进行去噪,避免噪声样本生
学位
近年来,语音情感识别的研究一直是一项具有挑战性的任务。语音情感识别的目的是从语音中提取情感特征,并将其分类为快乐、悲伤、愤怒或中性等情感。早期的语音情感识别的研究广泛依赖于使用音频特征来构建性能良好的分类器的模型。但人类在对话中不仅通过语音表达情感,还通过面部表情和身体动作来表达情感,而语音信息本质上是由声学特征和文本信息组成,因此文本信息中也包含情感特征。由于仅使用语音数据的情感识别模型的性能逐
学位