面向不均衡数据集的分类算法研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:cxg2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速发展,各行各业所创造的数据总量以惊人的速度快速增长。为了能从海量的数据中获得有效的信息,数据挖掘技术应运而生。目前,数据挖掘已被广泛应用于多个领域,在全球竞争、社会生活等方面均发挥了重要作用。但是在实际应用中,人们发现很多数据集的样本并不是均衡分布的。而且,传统分类算法是建立在数据分布均衡的基础上,处理不均衡数据会过多关注多数类样本,难以保证更有分类价值的少数类样本的分类性能。因此,不均衡分类问题成为了亟待解决的问题。不均衡数据的分类问题中,采样算法是较为有效且常见的解决方法,因此本文从采样算法入手进行了深入的研究。本文针对不均衡分类问题提出了三个方法,具体工作如下:(1)本文结合聚类算法提出了合成少数类过抽样算法(Synthetic Minority Over-sampling Technique,SMOTE)的改进算法CSMOTE(Clustered Synthetic Minority Over-sampling TEchnique)。CSMOTE算法抛弃了SMOTE在最近邻间线性插值的思想,在少数类聚类所得簇的范围内合成新样本,并根据样本间的欧氏距离对参与合成的样本进行了筛选,降低了噪声样本参与合成的可能。在多个数据集上,将CSMOTE算法与多个算法进行了对比实验,结果表明CSMOTE算法具有更高的分类性能,可以有效解决数据集中样本分布不均衡的问题。(2)本文从集成学习的多样性入手提出了两阶段采样,并在其基础上提出了一种集成分类算法(Imbalanced data ensemble classification algorithm based on sampling and feature selection,IDESF)。两阶段采样在保证所得数据集中样本合理性的基础上,增加数据集间的差异性以此隐式的提高基分类器的多样性,并且可以平衡数据分布。将IDESF与其他不均衡分类算法在多个不均衡数据集上进行了比较,结果表明该算法可以获得较高的AUCarea和G-mean值,具有较为优异的分类效果。(3)本文将第三章提出的CSMOTE算法与Ada Boost进行了融合,从而提出了一种新的分类算法CSMOTE-Ada Boost。Ada Boost算法可以在算法层面增加难分少数类样本的权重,从而提高少数类样本的识别效果。CSMOTE过采样算法可以增加少数类样本数量,在数据层面降低其不均衡性,从而提高少数类识别效果。因此,CSMOTE-Ada Boost算法可以在数据层面和算法层面同时提高分类器对少数类的关注,从而进一步提高其分类效果。将CSMOTE-Ada Boost在多个不均衡数据集上与其他分类算法进行了对比实验,验证了该算法的有效性。综上,本文提出的算法可以有效解决不均衡分类问题,提高少数类的识别效果。
其他文献
图像语义分割作为基础的计算机视觉处理任务,其本质上是利用对像素点的分类把图像划分为若干个不同且有意义的区域。从宏观上来看,语义分割是场景理解的必要步骤,是将图像由具体变为抽象的过程。随着计算机视觉的发展,语义分割在自动驾驶、医疗诊断、遥感图像分析等领域中具有非常重要的应用价值。近年来,基于全卷积神经网络的语义分割方法作为一个较新的研究方向受到了广泛的关注。在无数研究人员的共同努力下,基于深度学习的
光场图像新视点生成是与光场图像重定向密切相关的科学问题。现有的新视点生成算法多针对光场内插,生成视点范围受限,且无法修改光场图像的基线(baseline),同时当进行视点外插时,产生的空洞问题仍没有一个合理的解决办法。“先拍照,后对焦”是光场图像的一大特点,光场图像重聚焦是光场图像增强算法中的热点问题。但传统重聚焦算法存在混叠现象,严重损害了重聚焦图像的视觉效果。据此,本文提出了一种光场图像基线编
特征选择在模式识别、文本分类和计算机视觉等数据维数通常很高的应用中具有重要意义,它可以降低计算复杂度,发现高维数据的内在流形结构。本文研究矩阵回归模型及相应的特征选择方法,主要内容包括:首先,给出了鲁棒图正则化稀疏矩阵回归(RGRSMR)模型,其损失函数是基于L2,1范数,并以基于流形学习的类内紧致图作为正则化项。RGRSMR将类内紧致图与稀疏矩阵回归结合在一起,以执行二维矩阵数据的特征选择。其次
基于现有VR技术的相关应用,探索如何利用VR技术实现对孙温《红楼梦》绢本画的数字化设计。主要寻找传统文化内容与虚拟现实技术的交叉点,并利用VR技术实现对孙温《红楼梦》绢本画的交互性展示,为用户带来兼具沉浸性与真实感的虚拟体验。在设计过程中以孙温《红楼梦》绢本画的多形态交互性展示即VR系统中界面功能设计为突破口,使其审美性与交互性在虚拟体验之中结合形成文化内涵的跨媒介传播与表达。提高《红楼梦》相关文
随着图形化信息技术的生活化渗透与大众常态化文娱需求的日渐提升,视觉文化迅速发展成为人们精神生活和文化生活的主要感知感受方式,公众的艺术审美能力和视觉美学鉴赏力普遍提升,视觉价值标准与审美需要也在不断被重塑。但是从当前传统剪纸文化的传承发展现状而言,其视觉构成上的转化完成度以及视觉文化信息的活态体验呈现远远不能满足用户的使用、审美以及情感诉求。传统文化视觉构建惯式大多仍停留在对传统文化内容元素的跟踪
图像融合的基本思想是利用特定算法将多种传感器对同一场景获取的图像提取不同信道的有用信息,最后融合成高质量的图像,以提高图像的利用率、可信度和准确性,在军事监测、医疗诊断和目标识别等领域广泛应用。在过去的几十年中,许多传统的图像融合方法被提出,这些图像融合算法大致可以分为两类,即空间域算法和变换域算法。空间域算法首先根据某种策略将源图像划分为若干个图像块,然后对每对图像块根据计算活动度量融合在一起。
随着电子信息技术的快速发展,印刷电路板(PCB)应用越来越广泛,为准确高效地对其进行检测,自动光学检测技术(AOI)逐渐发展起来且已被应用于实际生产。目前,AOI技术主要采用2D视觉检测方法,但是由于元器件表面字符印刷方式不同,元器件字符凹凸性不同、颜色和大小多样,2D字符识别系统的鲁棒性低,准确性不足。而PCB的3D点云(3D-PCB)数据中的高度信息能有效增强PCB的2D图像(2D-PCB)中
在食品3D打印过程中,大多数食品材料水分含量较高,流动性较强,且无光固化性、热熔性等固化特征,打印制品易发生形变、坍塌、流淌等现象。目前主流的解决方案是调整浆料组分,使浆料获得较好的流体力学性质,在流畅挤出的同时,保持结构强度。但此方案下打印的制品仍为流动态,无法规避打印及后加工处理过程中的形变因素。因此,本研究通过构建多物理场仿真模型,开发微波3D打印固化单元,以具有良好3D打印属性的鱼糜为打印
电子游戏已经成为大众生活中越来越重要的休闲娱乐活动之一,而功能游戏这一新的游戏品类由于具有较大的社会价值,正受到越来越多的关注。功能游戏强调其文化、教育等多重功能,不仅会影响到用户的体验感受,同时也关系到游戏功能作用的传达效果。认知负荷理论是现代认知心理学基础上发展而来的重要理论,具有广泛的应用能力与实操价值,早先已经有众多研究者将其运用于教育学领域用以验证学习成效,近年来也逐渐被运用到产品设计领
无线射频识别(Radio Frequency Identification,RFID)作为一种使用射频信号进行信息交互的技术,有效地实现物与物之间的非接触性识别的短距离通信技术,被广泛应用于智慧仓储、智慧驾驶、安防以及军事等多种前沿的领域中。在被广泛应用的同时,RFID系统存在的安全隐私、阅读器可移动性等问题也受到大家的关注。面对这些问题,国内外研究学者致力于提出一种有效的RFID安全认证协议来提