论文部分内容阅读
Boosting是机器学习领域一种流行的、用来提高学习精度的设计框架,它通过若干个弱分类器的线性组合构造一个强分类器,使该强分类器的分类精度远高于单个弱分类器。AdaBoost是Boosting类算法中最具代表性的算法,经验表明AdaBoost的推广性随着弱分类器数目的增加而增加,但罕有过拟合现象发生。这一现象吸引了众多后续研究并导致若干理论上的解释,其中最成功的当属Schapire的间隔理论。间隔理论表明训练样本的间隔分布对推广性的影响至关重要,然而间隔分布的好坏是一个模糊概念,因此最近提出的许多算法都是通过优化某个间隔好坏的度量函数来获得一个好的间隔分布,从而提高推广性。本文的研究主要围绕基于间隔分布的Boosting算法,主要工作总结如下:1.回顾了AdaBoost、L2Boost、LPBoost、AdaBoost-CG与MDBoost等典型的Boosting算法,并分析了它们的参数对间隔分布的影响以及间隔分布对推广性的影响。2.提出了一个称之为MCBoost的新颖算法。不同于以往算法对间隔分布的间接控制,MCBoost通过优化一个间隔调节参数来直接控制间隔分布。MCBoost的实现采用了列生成技术,因此保证了快的收敛速度,使最终获得的组合分类器由尽可能少的弱分类器构成。通过实验我们证明了MCBoost在推广性上的优越性。3.将间隔控制思想推广到SVM算法领域,提出了一个新颖的改进算法G-SVM。实验证明,G-SVM获得的支持向量的稀疏性远优于传统的SVM算法。我们同时设计了G-SVM的多类算法,其复杂度仅等价于两类问题的SVM。