面向不平衡数据的分类方法研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:zzdlily_4000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社会上各个行业各个领域如:互联网、医疗、金融等都积累了大量的数据,积累的数据大多存在着数据的不平衡性,对不平衡数据采用传统的分类算法进行分类具备一定的难度,取得的分类准确性较低。如何对不平衡数据进行分类并提高分类性能已经成为我们的研究重点。本文分别从数据处理和分类算法层面出发,改进SMOTE算法和AdaBoost算法存在的不足:(1)为解决现有过采样算法中存在的未考虑类内不平衡、未选择要进行过采样的样本、去除噪音,以及合成过程中存在样本重叠和分布“边缘化”等问题,提出改进的过采样方法AGNES-SMOTE。该算法的关键是使用AGNES算法分别对多数类和少数类样本聚类,划分少数类簇。接着提出了采样权重和概率分布的概念,根据采样权重确定每个少数类簇中需要合成的样本数目以达到数据的平衡,接着计算出每个少数类簇的概率分布,再由其分布采取轮盘赌对样本进行选择,该样本再结合其近邻样本去合成新样本。同时在合成新样本过程中,采用质心方式来限制其生成区域。通过实验证明,该算法有效解决了现有过采样算法存在的不足,有效提高了分类器的分类性能。(2)为解决AdaBoost算法存在的弱分类器、加权系数和其样本更新策略的局限性问题,提出了基于AGNES-SMOTE的F-AdaBoost集成算法。该算法思路是,首先初始化原始数据集中的每个数据样本,为它们设置相同的权重值,利用该权重值在原始数据集上进行有放回地采样以得到采样样本集。其次利用AGNES-SMOTE方法在得到的样本集上进行第二次采样,得到平衡样本集并重新分配其样本权重;接着利用加权的平衡样本集来训练得到弱分类器。再利用弱分类器对原始样本集中的所有样本做结果预测,并根据结果计算分类误差率。判断误差率值进行弱分类器加权系数的计算,以及借鉴Focal Loss思想进行样本权重的更新。经过多轮迭代,最终将得到的若干个弱分类器集成强分类器。通过实验证明,该算法有效解决了AdaBoost算法存在的不足,有效提高了分类器的分类性能。实验证明:AGNES-SMOTE算法与SMOTE、Kmeans-SMOTE、Cluster-SMOTE等算法,通过取得的AUC值、F-measure值、G-mean值来进行对比,本文算法结合分类器在不平衡数据集取得较好的指标值,分类效果较好;F-AdaBoost集成算法与AdaBoost、SMOTEBoost、RUSBoost等算法比较,取得的Recall值、Precison值和Gmean值均优于其他算法。
其他文献
随着第五代移动通信技术的发展成熟与落地实施,移动通信网络系统中用户数量和数据流量需求呈现爆发式增长,如何为用户提供更高的通信服务质量成为无线通信系统发展面临的最主要的问题之一。去蜂窝大规模MIMO网络系统具有区域覆盖均匀、服务质量均衡、廉价易部署等优点,可大幅优化所有被覆盖用户的服务体验,是移动通信领域重要的研究方向之一。但是用户高密集区域以及临时突发激增通信服务需求给去蜂窝大规模MIMO无线通信
终端直通(Device-to-Device,D2D)通信技术作为下一代无线网络中的新兴技术,将流量从传统的网络中心实体转移到D2D网络,开辟了以设备为中心的通信新领域。D2D通信技术除了可以增加网络容量外,还可以降低基站(Base Station,BS)的计算复杂度。然而,异构蜂窝网络(Heterogeneous Cellular Networks,Het CNets)当中相互干扰的存在严重影响了
密码部件设计和密码分析是密码前沿一直关注的两大核心问题,两者相互制衡,又互相促进快速发展。分组密码属于对称密码,密码S盒是分组密码算法的关键组成部分,S盒的密码学性质是否优良决定着密码算法抵御密码分析的能力。密码分析则致力于寻找密码算法的漏洞和设计缺陷并尝试攻破算法,以检测密码部件或密码算法是否达标。在密码部件设计中,使用深度学习方法提高构造效率。同样地,为提高密码分析效率,各种自动化分析方法被提
全球卫星导航系统(Global Navigation Satellite System,GNSS)因其全天候全球监测、高精度等优点,使得利用GNSS观测数据精确提取电离层总电子含量(Total Electron Content,TEC)、进而研究电离层活动成为可能。同时,电离层对GNSS信号造成的延迟误差也是GNSS定位中主要误差源之一。因此,电离层TEC模型与GNSS的发展相互促进,既有利于改善
数据中心作为云计算基础设施的重要支撑,一直在增加投产规模。巨量能耗和低资源使用效率是数据中心一直以来的痛点问题,将数据中心中的虚拟机进行合理有效的放置能够有效降低能耗和提高资源使用效率。国内外学者针对虚拟机放置方法的研究已有丰硕的成果,但还存在一些需要优化和待解决的问题,本文主要针对大量资源碎片导致数据中心低资源使用效率和能耗浪费的问题,对虚拟机放置方法进行了较深入的研究,给出了两个云环境下面向资
随着纳米科学与纳米技术的快速发展,信息社会对光子器件尺寸和集成光路的集成度要求也越来越高,促使人们不断探索能够突破器件尺寸极限的途径。因此,超紧凑结构复杂的光子学器件和小型化集成光路成为光子学研究领域的热点。聚合物微纳光纤(Polymer Micro-nano Fiber,PMNF)具有良好的器件构筑能力、导光性能和独特的机械性能,还具有良好的柔韧性及弹性,因此被广泛应用于构筑小型化集成光路和超紧
医院门诊大厅作为功能型服务空间,内部行人交通流动线相较于其他建筑更复杂。其中由于行人的社会关系,医院内部包含有较多的异质同伴群。异质同伴群是指一起共同前行的小群体中包含一位身体状况及心理压力等差异的个体,且这种异常状态具有一定的持续性。其交通出行特征与单独个体出行显示出差异性,趋近于采取共同速度、方向进行统一运动,通过协调内部的步速达到整体的统一性。对于医院内部行人进行微观仿真研究,能够从定量的数
从2015年智能制造被列为《中国制造2025》的主攻方向以来,机械设备的智能检测已成为研究的重点之一,其中对旋转机械设备的零件缺损检测也引起了更多的关注。机械设备零件缺损检测主要是对设备中各个零部件的运行状态进行监测与故障诊断。传统故障诊断主要是利用电流信号、振动信号和声发射信号进行检测与分析,但存在着故障检测设备安装不便的问题。机械设备中零部件因振动而产生的声音信号中蕴含着丰富的机械状态信息,在
对流层散射通信具有传输距离远、速率高、安全性高以及抗干扰能力强等特点,因此,设计出多波束、低旁瓣电平的反射面天线就显得尤为重要。本文根据课题需求,对C波段多波束角分集反射面天线进行了系统的分析,设计了一款介质棒馈源和与之配套使用的极化隔离器。随后将反射面天线赋形技术应用于课题之中,成功设计出了一款双波束角分集反射面天线,在此基础上设计出另一款多波束角分集反射面天线。两款反射面天线分别能够实现双波束
柑橘黄龙病的早期鉴别对柑橘产业至关重要,利用近红外(Near Infrared,NIR)光谱分析技术对柑橘黄龙病进行鉴别具有便捷、快速、无污染等优点。本文主要针对传统检测方法准确率不高,稳定性较差的问题,提出两种适用于柑橘黄龙病的近红外光谱模型。模型集光谱数据预处理,波长筛选以及优化后的深度极限学习机等方法,并在不同分辨率光谱数据进行实验验证,主要研究内容如下:(1)提出一种最小角回归算法结合核极