基于改进生成对抗网络的多类别不平衡学习研究

来源 :河北工业大学 | 被引量 : 0次 | 上传用户：wangke8611

【摘要】

：

【作者】

：

肖华昕

【机构】

：

河北工业大学

【出处】

：

河北工业大学

【发表日期】

：

2023年01期

【基金项目】

：

国家自然科学基金青年项目（No.61902106）；天津市自然科学基金项目（No.19JCZDJC40000）；

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

现实工程应用中常受数据采集设备、成本等的制约,导致数据集正负样本比例失衡,由此引发后续分类识别准确率低等问题。在众多解决方法中,最简易有效的是通过数据生成方法平衡正负样本比例。目前不平衡学习多集中于处理二分类失衡数据,但实际样本数据常具有多属性多类别的特点,因此,研究多类别不平衡学习问题具有实际应用价值。之前的研究工作中,多类别失衡数据生成过程的设计都是基于样本整体分布,而未考虑多类别失衡数据集中不同样本间的特征差异。因此,本文从多类别失衡数据的类别以及属性差异角度,提出一种基于改进生成对抗网络的单属性指导条件生成对抗网络（Single Attribute Guided Conditional GAN,SA-CGAN）,并结合Boosting集成学习提取不同类别分布特征,构建Boosting-SA-CGAN数据生成模型,以此解决多类别样本失衡问题。本文主要研究工作如下:（1）针对现有数据生成方法易生成噪声样本和重叠数据,参考样本少训练困难,由此导致生成样本质量低的问题,提出SA-CGAN数据生成网络。该网络通过单类别单属性特征提取模式结合区间重叠算法减少类间重叠情况和噪声样本的生成,在生成过程中,采用类别标签指导并约束生成样本,并在判别器中融入卷积注意力模块,提高整体模型对多类别失衡数据的生成能力。（2）针对多类别数据生成后边界附近数据增多,导致类别特征差异降低,易导致后续多类别识别率低的问题,提出基于Boosting的Boosting-SA-CGAN数据生成模型,通过更新样本权重减少类间边界附近数据的生成倾向,突出生成正样本数据的特征,提高分类准确率。（3）从不同失衡比、不同类别属性个数角度,选用UCI中3个通用失衡数据集和KEEL中6个通用失衡数据集进行实验验证。将随机过采样（RS）、SMOTE、ADASYN、GAN、CGAN以及本文提出的SA-CGAN及Boosting-SA-CGAN共7种数据生成模型进行对比,采用SVM、KNN、DT和LR4种机器学习分类方法从召回率、精确率、准确率、F1值、ROC、AUC6种性能指标上对比数据生成后的分类效果,实验结果证明Boosting-SA-CGAN数据生成模型较其他方法受样本数据集的数据量和IR影响最小,能够稳定生成高质量数据提高分类结果,为后续采用生成对抗网络解决不平衡学习问题的研究奠定了理论基础。

其他文献

基于时空超图神经网络的人体动作识别研究

人体动作识别是分析视频中个体的动作和多人之间的互动行为。作为高级信息的骨架序列可以传达人类活动的紧凑信息,为描述人体动作提供有效的表示。图卷积网络（Graph Convolutional Network,GCN）通过将人体骨架构建为一个时空图,取得很好的分类结果。然而,大多数现有图卷积方法忽略了关节点之间的非物理依赖性,也没有充分考虑不同人体关节点和视频帧的重要程度。因此,对于基于骨架的人体动作识

学位

成渝地区双城经济圈现代产业体系构建中政府协同治理研究

当今是全球一体化的时代,跨区域合作成为主流,是现阶段中国经济发展的重要特征。国家、省域、市域之间的依赖性与纽带不断强化,彼此相互合作,且相互竞争。基于此,形成的以政府间竞争为主要特征的区域治理模式和体制机制为区域协调发展战略提供了强劲的推动力,也为地方政府指引了一条纾解区域经济协调发展难题的有效路径。区域政府协同治理已取得骄人的成绩,但同时,也要清楚地了解到,我国区域发展差距依旧较大,难以适应新时

学位

统计决策的常用方法研究

本文主要介绍统计决策在风险型和不确定型两种类型决策问题下的决策方法。主要介绍在风险型决策问题下的分别以期望值、等概率、最大可能性为标准的决策方法，以及在不确定型决策问题下的“好中求好”“坏中求好”和α系数决策方法，并且对上述各种决策方法进行归类总结，阐述各种决策方法的内容和手段，并通过一些具体实例来反映实际中的应用。

期刊

基于视图和哈希学习的三维模型检索算法研究

目前,互联网上的三维模型不仅在数量等级方面以指数的方式迅猛增长,而且与二维图像相比三维模型组成的场景包含更加丰富逼真的视觉细节,使得三维模型这一信息载体在建筑设计、造型艺术、动画制作以及零件生产加工等方面发挥了重要的作用。在海量的模型数据库中高效准确地检索到用户所需模型,具有重要的研究价值。三维模型的检索算法主要可以概括为两类:基于模型特征和基于视图特征。基于模型特征的检索主要是从模型的三维数据角

学位

基于对抗学习的网络表征方法研究

作为表征学习的一个重要领域,网络表征学习成为网络科学和数据挖掘领域的重要研究问题。经典的网络表征学习方法主要可以分为基于随机游走的方法、基于矩阵分解的方法和基于自编码器的深度学习算法三大类。其中,基于自编码器的深度学习算法虽然可以有效的发挥深度学习的强表示能力,但是存在两大严重问题。首先,该类算法的输入维度和所采用的深度自编码器的结构通常都与网络的规模严重耦合,因而无法高效的应用于大规模网络的表征

学位

网络服务提供者通知-删除规则研究

《信息网络传播权保护条例》确立的“通知—删除”规则曾在网络服务提供者网络版权侵权认定中发挥过积极作用,但也存在适用场域限于著作权领域、适用的网络服务提供者类型较少、适用措施仅限于“移除、断开链接”等问题,难以适应规制网络知识产权侵权的现实需要。而旨在修正“通知—删除”规则的“通知—必要措施”规则在司法适用中也存在法律适用顺序、合格通知标准、必要措施的选择等问题。上述问题的解决对网络服务提供者在网络

学位

论违约精神损害赔偿制度——以《民法典》第九百九十六条为中心

不论是在理论上,还是在司法实践中,违约精神损害赔偿制度一直以来都是倍受争议的话题。《民法典》第九百九十六的创新之举再次引起了理论与实务界对该制度的审慎思考与热烈讨论。确立违约精神损害赔偿制度是为了对人的精神权益给予更周密和更高程度的保护,实属实践之迫切需要。因而,本文以《民法典》第九百九十六的规定为中心展开论述,研究我国的违约精神损害赔偿制度。除引言和结语部分外,本文分为以下五个部分:第一部分介绍

学位

基于Anchor-Free的遥感图像目标检测算法研究

近年来,不同发展阶段的目标检测算法层出不穷,不少学者越来越关注目标检测算法面向工业界的应用,尤其是算法对实际场景是否有足够的鲁棒性。遥感图像是航空器或航天器在高空采集的俯瞰航拍图像集,对地球资源调查与开发、国土整治、环境监测、以及全球性研究有着重要的实用性价值。遥感图像的目标检测对于计算机视觉和数字图像处理方向的很多任务都有很重要的应用价值,因此具有很高的研究意义。随着人工智能技术的迅速发展,基于

学位

Ca2+在好氧颗粒污泥形成中的作用

通过运行序批式生物反应器与摇瓶实验相结合方法,在进水中投加不同数量Ca2+（0～200mg/L）,考察了Ca2+在好氧颗粒污泥形成中的作用.当SBRⅠ、Ⅱ进水Ca2+含量分别为30、100mg/L,运行20d后,两反应器中均出现了好氧颗粒污泥.运行前50d,SBRⅠ中颗粒污泥浓度MLSS与污泥沉降指数SVI指标明显好于SBRⅡ;运行80d后,SBRⅠ、Ⅱ中污泥浓度MLSS均稳定在7.5g/L,SV

期刊

级联生成对抗网络的人脸表情迁移方法研究

人脸表情迁移是计算机图形学角色动画领域的一项关键技术,可应用在电影制作、人机交互、虚拟现实等诸多领域。随着深度学习的发展,人脸表情迁移的深度生成模型替代了传统计算机图形学方法,提高了泛化能力。同时,基于生成对抗网络（Generative Adversarial Network,GAN）的人脸表情迁移为生成清晰的人脸表情图像提供了生成器与判别器博弈对抗生成的新思路。本文通过对生成对抗网络及其相关理论

学位

基于改进生成对抗网络的多类别不平衡学习研究

与本文相关的学术论文