论文部分内容阅读
针对不平衡数据分类问题,提出一种基于密度峰值的Adaboost算法。将训练数据划分为多数类和少数类,统计各自的数量;在多数类样本中,对由密度峰值算法快速聚类生成的各个簇按照采样率 进行随机欠采样,将所采样的多数类与原少数类合成新样本,降低数据的不平衡性;将合成样本带入以决策树为基分类器的自适应增强模型,通过改变样本权值分布提高该算法模型对于不平衡数据的分类性能。实验结果表明,该算法在评价指标ROC曲线下的面积(AUC)、G-mean和balance方面优于或者部分优于其它对比算法。