论文部分内容阅读
不平衡样本分类是指对某一类样本数远多于其他类的数据集进行模式分类的问题,重点关注的是对少数类样本的识别。然而传统分类器为了追求全局准确率而倾向于将少数类误分类为多数类,针对该问题我们从数据层面和算法层面提出了相应的解决方法,以提高对少数类的识别准确率。不平衡样本分类方法主要从数据层面和算法层面考虑。在数据层面,过采样算法能够增加样本信息,有助于少数类的识别。其中,BorderLine过采样算法以及Adaptive Smote过采样算法存在边界少数类样本识别不准确的问题,导致对于种子少数类样本选择不准确,难以合成符合样本分布的数据集;算法层面的方法主要通过修改现有分类器的损失函数实现,该类方法可使分类器更加注重少数类样本从而提高对少数类样本的识别准确率。其中,代价敏感ADC2算法样本的权重更新只考虑了基分类器准确率对下一轮样本权重的更新的影响,而没有考虑样本分布对样本权重更新的影响。AdaBoost算法存在少数类样本误分类总权重小于多数类误分类总权重的问题,该问题使得分类器对少数类分类准确率降低。本文针对过采样方法以及集成分类器在处理不平衡问题中存在的不足,在原有算法的基础之上做了一些改进使得改进后的算法能够提高对少数类样本的识别准确率。其中,针对采样比例计算不准确的问题,提出了改进的带权过采样算法和多数类带权投票过采样算法。改进的带权过采样算法按照边界少数类样本的重要程度进行相应比例过采样,多数类样本带权投票过采样算法通过多数类对少数类的带权投票结果决定少数类采样比例,使得每个少数类样本的过采样比例更加准确;针对代价敏感算法ADC2在权重调整时未考虑样本分布对权重更新影响的问题,提出了动态权重调整因子集成学习算法。该方法使用两类样本权重总和的比值作为调整样本权重大小的因子,使得AdaBoost集成算法对少数类更加重视。针对AdaBoost算法对少数类样本误分类总权重不够大的问题,提出BalanceBoost算法,通过修改现有AdaBoost算法,使得每一类都有一个相等的误分类权重总和,这样每一类得到平等对待。我们将改进的带权过采样算法和BalanceBoost算法相结合得到改进的带权过采样BalanceBoost集成学习算法,并将该算法应用于不平衡样本分类问题中。