论文部分内容阅读
不平衡学习已经逐渐成为当前数据挖掘领域的热门问题之一,其在医疗诊断、信用卡欺诈性检测、垃圾邮件过滤等现实应用中的需求十分广泛。在处理不平衡数据集学习分类问题时,应当遵循的准则为:尽可能提高少数类样本的分类精确度,同时又对多数类样本的分类精确度不造成太大损失。本文在不平衡数据固有特性的研究基础上,结合实际应用中数据的分布特性及其各个特征在分类过程中的重要程度,对目前常用的性能较佳的,用于处理不平衡数据的重采样算法进行了改进,有效的弥补了传统采样算法中存在的不足,提出了新的欠采样和过采样算法。为了进一步提高少数类样本的识别率,将集成学习与采样算法相结合,最终得到了完整的,针对不平衡数据集的分类学习算法。本文的主要成果有以下几点:(1)目前多数不平衡数据过采样算法是利用少数类样本的局部信息,使得合成的样本不太符合原始数据分布,而且容易造成噪声信息传播。针对这一问题,提出了基于稀疏表示的不平衡数据集过采样算法,该方法使用少数类样本的全局信息进行样本的合成,然后利用其近邻信息,去除位于多数类样本区域的合成样本。实验结果表明KSOS(K Spare Over-sampling)算法合成的样本更加符合原始数据的分布,避免了噪声信息的传播,提高了对少数类样本的识别性能。(2)目前多数基于KNN(K Nearest Neighbour)的不平衡数据欠采样算法,无法控制采样率,没有考虑离群值对分类结果的影响。针对这一问题,提出了具有离群值去除功能的基于K近邻的不平衡数据欠采样算法。该方法首先从多数类样本密集的区域删除多数类样本,获得平衡数据,然后通过分位数异常值检测去除离群值。实验结果表明KUS(K Nearest Neighbour Based Under-sampling)能在一定程度上减少多数类样本重要信息的丢失,提高少数类样本的识别率。(3)随机过采样与集成学习相结合的RUSBoost(Random Over-sampling Ada Boost)算法分类性能不太稳定。针对这一问题,提出了基于聚类的欠采样与集成学习相结合的算法CUSBoost(Cluster Based Under-Sampling Adaboost),该算法与RUSBoost类似,只是使用的采样策略不同。实验表明,该算法提高了少数类样本的识别率。