论文部分内容阅读
类别不平衡问题是机器学习在很多真实世界应用中面临的一大挑战,即分类问题中各类样本数差异明显,某些类别样本数远远小于其他类别,而小类别是关注的重点。在类别不平衡学习中,性能评价准则为AUC、F值或G-mean等,而非正确率。随机过采样是一种简单有效的类别不平衡学习方法,但它通常有过拟合风险。为了降低过拟合风险,SMOTE方法采用增加人工小类样本的方式进行过采样,但可能会引入噪声,并加重类间的“重叠”(overlapping)问题,也就是说,人工样本和真实样本不是独立同分布的。为了生成与真实数据分布更为一致的人工样本,一系列改进算法被提出,它们使用小类样本的近邻信息指导采样过程,或者对真实数据分布进行估计来生成小类样本。然而,在小类样本绝对稀少时,不管采用何种策略,都不能保证人工样本完全服从真实数据分布。因此,有必要承认人工样本不服从真实数据分布,并由此引出了一个值得研究的问题:在小类样本绝对稀少时,如何有效利用这些人工小类样本解决类别不平衡问题。本文针对该问题进行研究,考虑到人工小类样本虽然与真实数据分布不完全一致,但它们具有高度相关性,因此使用迁移学习的思想有效利用与真实数据分布高度相关的人工小类样本解决类别不平衡问题,主要做了以下工作:1)提出了一种基于Boosting框架的类别不平衡学习算法TrasoBoost。该算法在每一轮迭代过程中分别降低和提高被学习器错分的人工小类样本和原始样本的权重,而保持被正确分类的样本权重不变。这样在若干轮迭代后,非同分布的人工小类样本权重会逐渐降低,从而降低其对分类器的影响。实验结果表明,TrasoBoost优于多种流行的类别不平衡学习算法。2)提出了一种基于大间隔的迁移学习算法TrSVMs。该算法对基于大间隔的迁移学习算法AUX-SVMs进行了改进,对源领域和目标领域在一个优化问题中分别学习分类超平面以降低源领域和目标领域分布差异大带来的困难。实验结果表明,TrSVMs性能优于AUX-SVMs。后续工作中我们将在TrSVMs算法的基础上,有效利用非独立同分布的人工小类样本解决类别不平衡问题。