论文部分内容阅读
针对不平衡数据集的低分类准确性,提出基于蚁群聚类改进的SMOTE不平衡数据过采样算法ACC-SMOTE。一方面利用改进的蚁群聚类算法将少数类样本划分为不同的子簇,充分考虑类间与类内数据的不平衡,根据子簇所占样本的比例运用SMOTE算法进行过采样,从而降低类内数据的不平衡度;另一方面对过采样后的少数类样本采用Tomek Links数据清理技术进行及时修正,清除数据集中的噪声和抽样方法产生的重叠样例,从而保证合成样本的质量。本文所用训练数据集和测试数据集均为UCI数据集。实验结果表明本算法可以明显提高不平衡数