融合混合采样技术与Adaboost思想的不平衡数据分类学习算法的研究

来源 :贵州师范大学 | 被引量 : 0次 | 上传用户:kkufo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不平衡数据集指的是数据集中某一类(下称多数类)的样本数量相对其他类(少数类)多得多。传统的分类算法默认训练集中各样本类别的样本数量基本均衡,然而实际的数据集中样本可能不平衡,不平衡数据集的分类问题中,传统的分类算法更关注整体的分类精度,实际应用中有时候更关注少数类的正确分类。本研究从样本分布特点和样本特征两方面对不平衡数据集进行分析研究,提出聚类思想的欠采样方法和特征对类别影响的过采样方法,最后将两种方法与Adaboost算法融合,提出一个针对不平衡数据集的集成学习分类算法。首先,本研究根据样本分布特点,提出一个基于聚类的样本欠采样方法。该方法通过对不平衡数据集中多数类样本进行聚类,通过聚类的簇的大小判别簇中样本所携带的信息量,对携带不同信息量的簇采用不同的采样策略,去掉多数类中的离群点和边缘样本,减少多数类中的难分样本,同时降低数据集的不平衡性。其次,本研究针对不平衡数据集的基于特征影响提出过采样方法。在数据集中,样本特征对各个类别的影响是不一样的,因此样本的每个特征对每个类别存在不同的重要程度。由此可将样本特征进行分类,然后根据特征分类结果对少数类进行过采样,实现数据的平衡。经实验验证,对比随机过采样、SMOTE等方法,该方法提高了少数类样本的识别精度。最后,本研究结合以上数据层面的混合采样方法和Adaboost算法提出针对不平衡数据集的集成学习算法,该方法通过对数据集样本的平衡与Adaboost对错分样本的修正,更进一步提高了少数类的识别精度。
其他文献
随着声呐探测技术的发展,为提高生存能力,“大潜深”已成为水下航行体的重要发展趋势,这对水声吸声材料提出了耐压和吸声的更高的要求。本文开展耐压型吸声聚氨酯弹性体的制
蚁群优化算法(Ant Colony Optimization Algorithm,ACO)源于对蚁群觅食过程的研究,通过每只蚂蚁的简单搜索,整个蚁群能够发现食物源与蚁巢之间距离最短的路线,是以群体智能为
为了改善传统直接转矩控制(DTC)调速系统中存在的转矩及磁链脉动过大等问题,将自抗扰控制、滑模控制等先进控制理论应用到异步电动机DTC中,设计了新的控制策略,达到有效削弱
石墨烯因为其各种优异性能引起科研界的研究热潮,石墨烯基宏观材料在储能、传感、催化等领域有很大应用前景。目前常用氧化石墨烯片作为组装石墨烯宏观材料的基础材料,先将氧
随着电力系统电网规模日益变大,系统运行的不安全性也不断增加,近年来全球发生的多起电压崩溃事故给人民生活和经济发展带来了重大影响,电压稳定性问题备受各国关注和重视,因此寻找评价系统电压稳定性的合适指标极其重要。基于线性化网络的电压稳定性指标,通过把电源等效为电压源、负荷等效为电流源,简化内部电力系统。该指标的计算不基于潮流方程,满足计算电压稳定的快速性,但当处于极限时,各节点电压不趋于理论值,不能准
流动聚焦作为一种毛细流动现象,能够稳定、连续、可控、低成本地产生微纳米级液滴或者颗粒。该方法通过流场的剪切作用,将液体界面平稳拉伸,进而形成极细的射流,射流由于不稳
粒子群优化(Particle Swarm Optimization,PSO)算法是群集智能算法的一种。该算法全局搜索和收敛能力很强,而且概念十分简单也易于实现,所以发展十分迅猛并在各个领域都有应
有机硫化物在医药、材料等多个领域都具有重要应用。α-酰氧基硫醚(也可以称为烷基硫甲基酯),作为一类重要的有机硫化合物,应用也是非常广泛。该结构可以作为保护基应用于多
对基础设施需求的日益增加推动了PPP(Public-Private-Partnership)模式在中国不断推广,各部委出台一系列政策鼓励地方政府采用PPP模式进行基础设施建设。当PPP项目完成建设并
锚是船舶最重要的设备之一,其主要功能是使船舶安全停泊在预定的水域或海区。在船舶靠离泊操纵中,锚还可以用来辅助控制船舶运动。此外,锚设备还是船舶在紧急情况下最有效可