论文部分内容阅读
随着计算机技术的快速发展尤其是计算机硬件设备的进步,海量数据集存储和处理技术已经融入各行各业,其中数据挖掘是行业中常用的数据处理技术,其通过数据处理和模型构建为决策者提供更多的决策信息。在使用数据挖掘处理数据和构建模型的过程中,经常会遇到不平衡分类问题,即在分类问题中某些类的样本数量多于其它类的样本数量。然而传统的分类算法假设数据分布是大致平衡的,因此在处理不平衡数据集时难以有良好的效果。本文针对不平衡数据的分类问题,对数据层面的改进方法做了深入研究。本文的主要工作如下:(1)对目前经典的过采样算法做了详细的介绍和分析。介绍了SMOTE,Boderline-SMOTE和ADASYN这三种经典过采样算法的原理,针对每个算法的特点分析了其各自的优缺点。通过在多个数据集上的实验结果验证了以上分析。(2)为了增强分类边界同时减少噪声的生成,提出基于Lévy分布的过采样算法LOTE。该算法将Lévy分布融合到采样算法中,根据少数类样本所处的位置,利用Lévy分布设置新样本的密度分布。处于边界的样本对应Lévy分布的最高点,使得在边界合成的新样本密度最大,有利于增强分类边界。靠近多数类的样本对应Lévy分布斜率较小的位置,因此该处的新样本密度相对于边界样本略有减小,有利于减少噪声。由于靠近少数类的样本相对安全,因此其对应Lévy分布斜率较大的位置,此处的新样本密度相对于边界样本有较大减小,减少无效样本的生成。实验表明该算法可以有效地提高分类器的性能。(3)针对数据集线性不可分时采样算法容易生成噪声的问题,提出了基于核方法的过采样和LOTE结合的过采样算法(KLOTE)。基于核方法的过采样是将新样本的生成问题转化为数据集Gram矩阵的扩展问题,使得新样本的合成可以在特征空间进行。将LOTE算法和核方法结合,可以在特征空间中对少数类样本的位置进行判断,即判断样本是边界样本,靠近多数类的样本还是靠近少数类的样本,从而更准确地构造新样本的密度分布,充分发挥LOTE增强分类边界同时减少噪声生成的优势。通过实验说明该算法对分类器性能的提升优于其它算法。本文针对不平衡数据的分类问题,从过采样的角度做了改进,提出了LOTE算法和KLOTE算法,其中LOTE算法使用Lévy分布构造过采样中新样本的密度,相对于已有算法可以在增强分类边界的同时减少噪声的生成。KLOTE算法是LOTE算法在特征空间中的扩展,对于在原始输入空间线性不可分的数据集,该算法可以有效提升分类器的性能。