论文部分内容阅读
集成方法往往能提升单分类器的性能,但最终模型占用存储空间大,预测耗费时间久等缺点也随之出现。因此,各种修剪技术陆续被提出,其目标针对原始集成方法进行有效而最大程度的简化,同时能够保持甚至提升原有集成方法的预测性能。集成方法修剪技术已成为机器学习领域学者们研究的一个重要课题。Bagging算法作为经典集成方法之一,修剪Bagging集成模型同样面临着提升原始Bagging预测性能的同时保证修剪效率最大化等问题。然而,目前修剪Bagging的方法大多采用复杂的计算进行修剪,大大增加了修剪模型的计算成本。在本文中,针对Bagging算法,本文首先提出两种独立的Bagging修剪方法,即一种基于正确率的修剪方法和另一种基于距离的修剪方法;在此基础上,进一步提出一种两阶段混合修剪技术,以获得更为简约而高效的集成模型。论文内容主要包括:(1)研究一种基于正确率的Bagging修剪方法。该方法利用Bagging子模型在out-of-bag样本集上的预测正确率,按分位数阈值筛选出表现优异的子模型,构建新的集成模型。此修剪方法充分考虑子模型的预测正确率,最大程度缩减原Bagging算法中的子模型数目。(2)研究一种基于距离的Bagging修剪方法。该方法首先计算经典Bagging中各子模型对应的out-of-bag样本集的样本中心,然后针对每个待预测样本,计算该样本到各样本中心的距离,进一步根据分位数阈值筛选出距离待预测样本较近的部分子模型,从而构建起新的集成模型。此修剪技术充分考虑待预测样本的个体差异性,筛选出因样本而异的子模型集,以此减少Bagging子模型数目,获得预测任务的加速以及性能的提升。(3)在上述两种独立修剪技术的基础上提出一种两阶段的混合修剪方法。本文中提出的基于正确率和基于距离的修剪方法分别记为P1和P2,依据前后顺序,两阶段混合修剪方法包含两种修剪方式,分别称为P1+P2和P2+P1。P1+P2方法是指针对基于正确率的修剪方法P1筛选出的子模型,进一步利用基于距离的修剪技术P2进行筛选;而P2+P1方法恰好顺序相反,先利用P2修剪,再应用P1进行筛选。两阶段混合修剪方法结合了两种独立修剪技术各自的优点,可进一步缩减子模型的数目并提升模型预测性能。最后,本文使用来自UCI的28种数据集,针对上述提出的修剪方法进行5折交叉验证。在实验阶段采用四种-基分类器进行对比研究,分别包括决策树、高斯朴素贝叶斯、K-近邻和逻辑回归。实验结果证明,对传统Bagging算法的修剪不仅可以有效解决集成模型占用内存大等问题,还可以进一步提高预测精度。大多数情况下,本文提出的两阶段混合修剪方法的预测性能要优于几种类似的优化方法。