论文部分内容阅读
Boosting算法是近年来最流行的分类算法之一.它能提升任意给定分类算法的分类精度.该算法的统计性质是近年来的研究热点.本文将重点讨论Boosting算法的一致性.
第一节,介绍了Boosting算法的发展过程.列举了主要的二分类Boosting算法,如AdaBoost.M1算法,LogistBoost算法,实值AdaBoost算法和正则Boosting算法.详细介绍了AdaBoost.M1算法的统计性质.介绍了多分类Boosting算法的演变过程并给出了一种多分类Boosting算法.
第二节,讨论了AdaBoost.M1算法满足一致性的充分条件.在样本集可分的条件下,可以证明以线性分类器为弱分类器的AdaBoost.M1算法具有一致性.利用几何差异,可以估计AdaBoost.M1算法每次迭代得到的线性弱分类器的加权经验误差.据此可证明,当AdaBoost.M1算法的迭代次数充分大时,算法生成的分类器会随着样本容量的增大而收敛到最优分类器.
第三节,讨论了正则Boosting算法满足一致性的充分条件并求出了一种具体的正则Boosting算法的收敛速度.对于正则Boosting算法,根据比较定理,得到了其具有一致性的充分条件.进而研究了以凸损失max(1-x,0)2为损失函数的正则Boosting算法的收敛速度.
第四节,讨论了多分类Boosting算法满足一致性的充分条件.当多分类模型满足无限样本一致性时,得到了多分类Bosoting算法满足一致性的充分条件.
最后一节总结了本文的主要内容并提出了进一步的研究方向.