论文部分内容阅读
在机器学习和数据挖掘领域中,分类是重要的研究内容之一,其目的是构造一个分类模型,将数据集中的数据划分到给定类别中的某一个。由于传统的分类算法没有考虑数据的非平衡性,使得其在处理非平衡数据分类问题上面临着巨大的挑战。例如在医疗诊断、欺诈电话检测等问题中,关注的事件在所有数据记录中占比都极小,但是将其错误分类却会带来无法估量的代价。在非平衡数据中对少数类的正确分类往往比多数类更重要,如何对非平衡数据集进行正确分类,提高少数类的分类准确率成为分类问题中研究的重点。
目前,非平衡数据分类问题在理论和实践上都受到高度重视。很多针对非平衡数据的分类算法从不同的处理角度被提出。非平衡数据集分类问题的研究方法主要包括算法改进和数据集重构两类。数据层面通常使用的方法有过采样和欠采样方法,但使用单一的采样算法可能造成少数类样本过拟合或者丢失含有重要信息的样本。因此,本文针对基于混合采样的非平衡数据分类算法进行了深入的研究,主要内容包括以下两个方面:
(1)提出了一种基于分类超平面的混合采样算法。该算法旨在克服SVM算法在处理非平衡数据时分类超平面容易偏向少数类样本的问题。首先利用SVM算法得到分类超平面;然后迭代进行混合采样,主要包括:删除离分类超平面较远的一些多数类样本;对靠近真实类边界的少数类样本用SMOTE过采样,使分类超平面向着真实类边界方向偏移。实验结果表明该算法相比其他相关算法在F-value值和G-mean值均有较大提高。
(2)提出了一种基于近邻分布的混合采样算法。该算法通过改变样本的分布来平衡少数类与多数类样本的数量。在利用Borderline-SMOTE算法构造新样本时,对边界样本的k个近邻的重要度作出判断,优先选择适于进行新样本生成的近邻,从而更精确的生成少数类样本;同时,利用基于距离的欠采样方法删除一些贡献度较小的多数类样本,构造出一个较为平衡的新的数据样本集合。实验结果表明该算法相比其他相关算法在F-value值和G-mean值均有较大提高。
本文从数据层面的角度出发,针对单一的采样算法可能存在的问题,提出了两种基于混合采样的非平衡数据分类算法,提升了少数类样本的分类精度,为非平衡数据分析提供了技术支撑。
目前,非平衡数据分类问题在理论和实践上都受到高度重视。很多针对非平衡数据的分类算法从不同的处理角度被提出。非平衡数据集分类问题的研究方法主要包括算法改进和数据集重构两类。数据层面通常使用的方法有过采样和欠采样方法,但使用单一的采样算法可能造成少数类样本过拟合或者丢失含有重要信息的样本。因此,本文针对基于混合采样的非平衡数据分类算法进行了深入的研究,主要内容包括以下两个方面:
(1)提出了一种基于分类超平面的混合采样算法。该算法旨在克服SVM算法在处理非平衡数据时分类超平面容易偏向少数类样本的问题。首先利用SVM算法得到分类超平面;然后迭代进行混合采样,主要包括:删除离分类超平面较远的一些多数类样本;对靠近真实类边界的少数类样本用SMOTE过采样,使分类超平面向着真实类边界方向偏移。实验结果表明该算法相比其他相关算法在F-value值和G-mean值均有较大提高。
(2)提出了一种基于近邻分布的混合采样算法。该算法通过改变样本的分布来平衡少数类与多数类样本的数量。在利用Borderline-SMOTE算法构造新样本时,对边界样本的k个近邻的重要度作出判断,优先选择适于进行新样本生成的近邻,从而更精确的生成少数类样本;同时,利用基于距离的欠采样方法删除一些贡献度较小的多数类样本,构造出一个较为平衡的新的数据样本集合。实验结果表明该算法相比其他相关算法在F-value值和G-mean值均有较大提高。
本文从数据层面的角度出发,针对单一的采样算法可能存在的问题,提出了两种基于混合采样的非平衡数据分类算法,提升了少数类样本的分类精度,为非平衡数据分析提供了技术支撑。