论文部分内容阅读
在机器学习和数据挖掘领域中普遍存在着类别分布不平衡的数据集,当用传统的机器学习方法进行分类时,对多数类有较高的识别率,而对少数类的识别率很低。若少数类样本足够重要,往往会带来较大的损失。因此,不平衡数据集的学习问题已经成为了目前机器学习和数据挖掘领域中的一个难点和新的研究热点。
目前国内外对此问题的研究主要集中在这两个方面:数据处理方法和算法改进方法。数据处理方法主要有:过抽样方法、欠抽样方法等;算法改进方法则包括:cost-sensitive learning、one-class learning、boosting等。
支持向量机是最新的一类机器学习算法,它遵循的是统计学习理论中的结构风险最小化原则(SRM原则)。目前,支持向量机已被成功地应用于分类、函数估计和密度估计等领域。但是在处理不平衡数据问题时,它遇到了很大挑战。
为了能提高少数类的分类性能,本文提出了一种基于数据预处理的拆分训练组合分类器算法。首先,利用Tomek links对数据集进行预处理,删除所有的Tomek links样本对,从而形成新的数据集;然后,把新数据集里的多数类样本按照不平衡比拆分为不相交的若干个子集,每个子集和少数类样本一起合并为一个新的子集;最后,在每个子集上用最小二乘支持向量机进行训练,把每个分类器组合为一个分类系统,一个新的测试样本的类别将由这些分类器的分类结果投票表决。数据试验结果表明,该算法能在提高整体分类性能的同时有效的提高少数类的分类性能。