论文部分内容阅读
不平衡数据集是指某一类样本的数量远大于其他类样本的数量,不平衡数据集分类问题在机器学习和模式识别的很多领域中广泛存在。传统的分类算法大都基于各类样本的数量是大致平衡的假设,用于解决不平衡样本分类问题时常常效果不佳。当前许多研究者针对不平衡样本分类问题从数据层面和算法层面提出了解决方案并取得了一定的效果。数据层面的混合采样方法能发挥欠采样和过采样的优势,同时能解决过采样造成的样本入侵到其他类中的问题,因此存在独特的优势。当前对混合采样方法研究还不充分,存在将混合采样过程分别进行、没有关注类内不平衡导致的少数类样本重要性不同、正负样本采样的比例难以确定等问题;集成学习框架被广泛应用于处理不平衡分类问题中,结合混合采样组合的差异性也会对集成学习的效果产生影响。本文针对以上问题,开展了对数据层面的混合采样方法和算法层面结合数据预处理与集成学习方法的研究。本文针对不平衡样本二分类问题的性质和混合采样方法的特点,提出了一种基于混合采样的集成学习方案。针对少数类样本采样时重要性不同的特点及现有的混合采样方法没有将欠采样和过采样在同一个过程中进行考虑的情况,应用进化算法监督混合采样的过程。进化算法的染色体代表了混合采样的组合,使用多位二进制码表示少数类的过采样率,使得欠采样和过采样形成的采样组合作为一个整体用进化算法的适应函数进行评价,同时每个少数类样本的过采样率能够得到优化,形成了基于进化算法的混合采样算法。本论文根据进化算法搜索空间的定义,对该方法在解决少数类样本的噪声样本、边界样本和类内不平衡问题进行分析。集成学习在解决不平衡分类问题时能结合采样技术多次采样来确定不平衡样本的分布,具有独特优势。由于Ada Boost框架对基分类器的差异性敏感,本文在使用进化混合采样方法产生的样本训练基分类器的同时,考虑基分类器训练所使用的混合采样的组合的差异性影响分类效果,并在进化算法的适应函数中考虑这个差异性,提出了基于进化混合采样的集成学习二分类方案。本文经过在16个数据集上的实验,验证了进化混合采样的有效性,并且对比其他解决不平衡样本分类问题的集成算法AUC值,证明了进化混合采样的集成算法的有效性。