论文部分内容阅读
针对不均衡数据分类决策面偏移导致少数类识别率较低的问题,提出一种混合取样算法。首先计算类样本数的比值 K;然后分别在多数类和少数类中随机选取一个样本,计算该样本的 K-1近邻,以 K 个样本的中心作为新样本;再对剩余的样本重复上面操作,直到所有样本都被处理;最后所得新样本与原少数类样本共同构成新的训练集。该算法在改变样本密度的同时保持了原样本的空间分布,实验结果表明该算法能够提高SVM 在不均衡数据下的分类性能,尤其是少数类的分类性能。