偏类重叠学习的不平衡数据分类算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:cyalil
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不平衡数据分类指对存在“某类样本数量远远大于另一类样本”现象的数据进行分类,广泛应用于医疗诊断、故障检测、信用贷款等领域。传统机器学习分类方法通常假设样本具有均匀的类分布和相同的误分代价,直接应用于不平衡数据时,分类器会偏向于多数类,导致少数类将被多数类淹没。而现有的不平衡数据分类方法主要侧重于解决数据的类失衡问题,忽略了已被相关研究证实对分类器性能负面影响更严重的类重叠问题。基于上述背景,本文分别从类重叠样本加权和类重叠区域软消除两个角度入手,进行了相关解决方法研究,主要工作如下。(1)针对采样后样本失衡率研究不足和重叠少数样本可见性低的问题,本文提出了一种基于少数类重叠率和相对密度的不平衡数据自适应过采样算法。首先,为了获得更精确的少数类重叠率,本文提出了基于近邻的类重叠区域动态搜索方法(Dynamic Search Algorithm for Local Overlap Regions,LORDS)。其次,针对传统密度计算方法易受离群点影响的问题,提出了一种样本局部密度的计算方法,用于计算少数类相对密度。最后,考虑样本分布对分类性能的影响,提出了一种自适应失衡率计算公式,用于自动确定样本的合成数量,并在少数类的重叠区域进行样本合成,以进一步强调决策边界的重叠少数类样本,增强分类器对其的鉴别能力。实验结果表明,相比同类方法,本文提出的类重叠识别算法更精确,自适应过采样算法的分类精度也有显著提升。(2)针对类重叠区域影响严重和类重叠样本信息学习困难的问题,本文提出了一种基于双重聚类机制和阶段混合采样的不平衡数据集成分类方法。首先,利用提出的投影式聚类组合策略,将类分布分散混叠的原数据转换为类分布简单且集中的交叉集(Cross-complete Set,CCS)。其次,利用提出的阶段混合采样方法分别对CCS子集欠采样去重叠和过采样平衡化;然后,利用提出的聚类迁移映射机制,基于分布一致性约束对各子集分别构造一层单样本信息更丰富且类重叠度进一步降低的映射层,用于辅助分类。最后,基于映射前后子集分别训练分类器并加权融合后,在决策层根据测试样本和分类器的反式距离,对各分类器融合结果进行二次融合,得到最终分类结果。该算法的核心是利用子集间的数据交叉性,实现对重叠多数类样本的软剔除,既可避免重叠样本对弱分类器造成不利影响,又可充分学习其信息。实验结果表明,本文算法的分类性能显著优于对比算法。
其他文献
随着光伏等新能源产业与直流配电网的兴起,直流导线接头越来越多见,很容易发生电弧现象。直流电无过零点,电弧不会自动熄灭,燃弧时间更长,易引发电极的烧蚀,甚至造成火灾。因此,研究直流故障电弧的温度与电气特性以及电弧对电极的侵蚀规律,对保障直流供配电系统的安全可靠运行具有重要意义。本文首先研究电弧的电气与温度特性。搭建直流故障电弧的实验平台,通过实验数据分析得到直流故障电弧的电气与温度特性的规律。接着,
学位
随着分布式电源(Distributed Generator,DG)大规模接入,常规配电网向含DG配电网转变。由于配电网结构日趋复杂,配电线路绝缘化率逐渐提升,受雷击和外力等影响,近年来断线故障频发。断线故障造成系统缺相运行,引起三相电压、电流严重不平衡,且可能伴随接地现象,加剧故障的危害性,导致负序、零序分量的大量产生,威胁旋转类设备和敏感电力电子设备的安全,影响DG控制系统性能和稳定性,严重时甚
学位
受潮是导致油浸式电力变压器绝缘劣化的重要因素,严重影响设备的安全运行。采用无损测试手段,在不吊罩取样前提下准确获得油纸绝缘的受潮状态,从而制定合理的运维检修策略,对提高设备运行可靠性、延长其使用寿命具有重要的工程意义。基于绝缘频域介电响应特性的绝缘测试和诊断技术,已被证实在无损检测设备内绝缘分布式缺陷的应用中表现出较大的潜力,已有进口商用仪器面世并实现了现场变压器绝缘受潮程度的定量评估。该技术的评
学位
为遏制全球变暖,缓解能源危机,实现“碳达峰、碳中和”的战略目标是我国未来重要的发展方向。实现“双碳”战略的一个重要途径就是汽车电动化,为了提升用户体验同时充分利用电动汽车的储能特性,有必要设计具有双向功率传输的车载充电机。一般两级式车载充电机设计的关键在于隔离双向DC-DC变换器(Isolated Bi-directional DC-DC Converter,IBDC)的设计,在众多的IBDC中,
学位
电流与电力系统运行状态密切相关,其传感技术是保证电力系统安全稳定运行和推动智能电网发展的关键技术之一。目前,光学电流传感器因具有体积小重量轻、绝缘性能优良、抗电磁干扰能力强等优势,得到了大量研究和广泛应用。其中,基于磁致伸缩效应的无源光栅电流传感器相较磁光效应型和干涉型传感器而言不会受到双折射效应或外界振动等因素的影响,具备宽频、宽温、高性能测量的潜力。但基于已有研究发现,此种传感器在频率响应、温
学位
在“十四五”规划的推动下,为发挥我国风能资源丰富的优势,风力发电在新能源发电领域逐渐占据重要位置。变流器作为风力发电系统中最关键且故障率最高的装备,其中功率器件IGBT是最脆弱、最容易失效的部件。准确的变流器可靠性评估结果对于整个风电机组的稳定运行、提高经济效益具有重要意义。受风速随机性的影响,机侧变流器输出参数频率(0~20Hz)与IGBT模块热时间常数(100ms)不匹配,而传统寿命模型难以反
学位
触觉传感器是实现人机交互的重要接口元件,逐渐被应用于消费类电子产品、机器人和医疗器械等领域。现实世界中触觉传感器在机器人中的应用仍然具有挑战性,速度缓慢、分辨率低、体积大、成本高等因素制约着其在机器人领域中的应用。本论文针对以上问题,提出了一种基于MEMS(Micro-electro-mechanical system,MEMS)和CMOS(Complementary metal oxide se
学位
现代生活中,基于深度神经网络的深度学习技术已经在多个应用领域取得了突破性的成功。随着物联网的发展,在嵌入式设备上实现这类人工智能应用的需求也在不断增加。然而,经典深度神经网络往往需要大量的计算开销和存储占用,阻碍了其在资源有限的物联网设备上进行部署。为应对该挑战,许多模型压缩技术被研究者们陆续提出。其中,二值量化方法由于极高的存储节省比和高效的卷积计算方式成为了一种简单且高效的压缩方法。但当前二值
学位
结构健康监测(Structural Health Monitoring,SHM)是指利用传感器对工程结构的损伤进行检测和识别,作为物联网技术的重要应用领域之一,SHM已经在环境监测、应急管理等应用中得到广泛关注。对于部署在缺乏地面通信基础设施的特殊地区的SHM传感器,由于没有地面基站提供接入服务,要可靠地实现收发数据将变得十分困难。无人机和卫星由于具有灵活的机动性以及广阔的覆盖范围,被认为是实现此
学位
随着电子技术的发展,视觉传感器被广泛应用于社会各个方面,如军事,安保和车载等领域,它可以让观察者在一定距离之外,不经过接触就能对物体有一定的观测和了解。摄像设备和计算机的联合促进了计算机视觉任务的快速发展,从而更好地解决各种场景下的环境观测问题。其中,在夜间等光线暗淡的环境下拍摄得到的图片像素低,噪声大,阻碍着后续的图像处理,所以低光图像的增强技术是计算机视觉领域不可或缺的一部分。而根据现有的研究
学位