论文部分内容阅读
分类器是机器学习中最基本的一种算法,它用于对未知样本进行预测和分类。在常规应用已经有很多研究学者提出了不同方法,并取得很好的分类性能。但现实中还存在着很多在每个类别中样本数目差异大的数据分类问题,使用通常的分类模型进行训练得到的分类器可能会忽视样本较少的类别,然而这些样本较少的类别却在实际中需要人们更多的关注。这种问题称为不平衡分类问题。现有的不平衡分类算法主要分为采样,与代价敏感的方法,还有一部分混合使用集成学习的方法。本文从解决不平衡分类问题的策略出发,结合现有的多种针对不平衡的方法,同时设计多视角学习和集成框架来克服传统不平衡分类方法的缺点提高分类性能。本文首先提出采样与集成策略下的多视角熵学习模型(Multi-view Entropy Discriminant Learning with Sampling and Ensemble Strategy,MEDL);其次,从生成模型与判别模型融合的角度,基于Fisher核映射的方法和多视角子空间集成学习提出了基于Fisher核的双重采样多视角模型(Fisher Kernel-based Multi-view Learning with Bi-Bagging,FKML)。本文贡献有如下三点: 第一,目前的不平衡算法主要以算法的单个方面为出发点进行方法的改进,一般为采样方法的改进,分类模型的目标函数的改进,以及单个分类框架的改进。因此本文从多个方面同时出发,首先通过结合采样方法来构造平衡的子训练集,用于训练基分类器,同时通过针对基分类模型设计局部熵,使得训练得到的基分类器模型更关注对分类有用的样本,从而提高基分类器的能力,再通过集成方法提升整体分类器的分类性能。 第二,传统集成方法中的基分类器大多是基于单视角数据而训练的。但由于采样方法对训练样本的信息造成损失,从而使得样本的数量可能因为过少,不足以训练一个有效的基分类器。本文引入多视角的思想,对集成学习中的基分类器进行改进,通过从单视角生成多视角数据,弥补由于采样导致的数据损失,因而提高基分类器的分类性能。实验中证明,在不平衡率较高的时候,多视角方法对不平衡集成学习的分类性能有较好的提升。 第三,目前的不平衡分类问题中,多数是基于判别模型或者生成模型中的一种类型的机器学习模型进行研究的。但实际上,两种类型的学习模型可以结合起来,用于提高集成框架中的基分类器的性能。本文将生成模型Fisher核映射方法引入传统的线性分类器模型中,通过数据样本的统计参数分布为分类器提供先验信息,使得训练样本具有更好的判别特性。多视角子空间增加训练得到的基分类器的多样性,从而在集成中得到较高的分类性能。实验证明,该学习框架是有效的,同时可以将不同类型的线性分类器作为框架的基分类器以获得不同的分类效果。 本文方法通过综合现有算法优点,并且提出了同时考虑从多个层面对模型改进,从而构造不平衡分类框架,为分类器设计领域提供了一种新思路。可见本文方法是一个可用于分类器优化改进的学习框架,并具有较大的启发性和推广潜力。