论文部分内容阅读
近年来,不平衡数据的分类问题经常出现在各种分类和预测问题中,已经成为数据挖掘和机器学习领域中的一个重要研究方向。不平衡数据通常是指数据集中不同类别样本在数目上的不平衡。多数传统的分类算法以整体的分类精度作为评价准则,倾向于将样本划分为多数类,导致少数类的识别率不高。这种现象广泛分布在各个领域中,如入侵检测、医疗诊断及人脸年龄估计等,我们通常更加关注的是少数类分类情况。所以研究如何更加有效地识别少数类样本,设计恰当的不平衡数据分类算法具有重要的价值和实际意义。 目前不平衡数据的分类方法通常可以分为两个层面:数据层面和算法层面。数据层面上的方法是通过对数据进行预处理来改变样本类别间的不平衡性,如随机过采样、SMOTE、RWO等。算法层面上是改进前人的算法或者重新设计新的算法,如代价敏感学习、主动学习、集成学习等。 与其他算法相比,集成学习的优势在于有着更高分类性能和更低的泛化误差,在不平衡数据的分类问题中具有天然的优势。本文的主要研究内容是以基于集成学习解决不平衡数据分类问题为核心展开的,分别从数据和算法两个层面进行改进并提出新的方法。论文做了如下几个方面的工作: (1)首先在数据层面上,分析并总结了SMOTE和RWO这两类不同的过采样方法,并对针对SMOTE和RWO存在的不足,提出了一种基于概率分布估计的过采样方法PDEO。然后将其应用于Boosting方法中并提出基于概率分布估计过采样的集成学习算法PDEOBoost。通过在多组UCI数据上的实验,证明了PDEO和PDEOBoosts的优越性。 (2)在算法层面上,对集成学习做了深入研究。考虑到集成学习在不平衡数据分类问题中的优势,结合不平衡数据邻域的分布特征,提出一种新的解决二类不平衡数据分类问题的集成算法DE-NHS。通过对比实验表明,DE-NHS能够有效地提高少数类的识别率和整体的分类性能。 (3)研究了常用的多分类策略。针对现实生活中普遍存在的多类不平衡数据现象,将基于二类分类的DE-NHS方法拓展到多类分类MUDE-NHS。在UCI数据集上的实验结果表明,MUDE-NHS能够有效地解决多类不平衡数据的分类问题。 (4)对入侵检测的方法进行了研究。结合MUDE-NHS方法在多类不平衡数据分类中的优势,将MUDE-NHS应用于入侵检测中去。实验结果表明该方法显著的提高了入侵检测的分类精度。