论文部分内容阅读
不平衡数据集在现实生活中广泛存在。在不平衡数据集中,数量上处于劣势的小类的识别往往是分类的重点。不平衡数据集中,小类样本的分布比较稀疏,并且往往被大量大类样本所包围,这为小类特征的学习带来极大的挑战。传统分类算法在不平衡数据集上分类效果不好,往往将小类样本误分为大类,不能达到分类的目的。SMOTE方法通过小类样本之间的插值合成新的小类样本以平衡数据集的分布,是一种向上采样方法。但是,按照SMOTE方法合成新的样本后,小类分布稀疏的地方仍然相对稀疏,小类分布密集的地方仍然相对密集,不能从根本上改变小类分布稀疏的情况。可以推断,落在稀疏区域的未知小类样本,仍然不易被识别。为了进一步提高小类的识别率,基于SMOTE,本文提出了一种新的向上采样方法即Random-SMOTE。Random-SMOTE可以在小类样本空间内随机合成新的小类样本,从而可以有效的改变小类样本分布稀疏的情况。算法中,分别针对数值属性和非数值属性提出了相应的处理方法。在此基础上,提出了基于Random-SMOTE的不平衡数据集分类模型。模型提供了一整套解决不平衡数据集分类问题的方案。其核心是首先应用Random-SMOTE对小类样本进行向上采样以平衡数据集,然后利用k-近邻算法对采样之后的数据集进行分类,得到分类模型。为了使k-近邻能够处理混合属性数据集,k-近邻算法采用HEOM准则来确定混合属性样本之间的距离。模型中还包括数据的预处理和不平衡数据集分类性能评价指标的选取。根据在多个实际数据集上的一系列实验表明,Random-SMOTE可以有效地解决不平衡数据集中小类分类困难的问题。主要体现在,与SMOTE和随机采样方法相比,Random-SMOTE方法不仅对小类具有更高的分类准确率,而且对小类样本的绝对稀少相对不敏感,同时在性能评价准则G-mean上总体表现最好,取得了很好的分类效果。同时,本文还给出了Random-SMOTE算法中的唯一可变参数—采样倍率N的参考设置方法。Random-SMOTE可以应用在包含非数值属性的数据集上,并且对小类的绝对稀少比较不敏感,所以本算法具有良好的鲁棒性,可以推广应用在不平衡数据集分类的实际问题中。