Bagging算法的两阶段混合修剪技术研究与分析

来源 :浙江工商大学 | 被引量 : 0次 | 上传用户:lwllwl200315
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
集成方法往往能提升单分类器的性能,但最终模型占用存储空间大,预测耗费时间久等缺点也随之出现。因此,各种修剪技术陆续被提出,其目标针对原始集成方法进行有效而最大程度的简化,同时能够保持甚至提升原有集成方法的预测性能。集成方法修剪技术已成为机器学习领域学者们研究的一个重要课题。Bagging算法作为经典集成方法之一,修剪Bagging集成模型同样面临着提升原始Bagging预测性能的同时保证修剪效率最大化等问题。然而,目前修剪Bagging的方法大多采用复杂的计算进行修剪,大大增加了修剪模型的计算成本。在本文中,针对Bagging算法,本文首先提出两种独立的Bagging修剪方法,即一种基于正确率的修剪方法和另一种基于距离的修剪方法;在此基础上,进一步提出一种两阶段混合修剪技术,以获得更为简约而高效的集成模型。论文内容主要包括:(1)研究一种基于正确率的Bagging修剪方法。该方法利用Bagging子模型在out-of-bag样本集上的预测正确率,按分位数阈值筛选出表现优异的子模型,构建新的集成模型。此修剪方法充分考虑子模型的预测正确率,最大程度缩减原Bagging算法中的子模型数目。(2)研究一种基于距离的Bagging修剪方法。该方法首先计算经典Bagging中各子模型对应的out-of-bag样本集的样本中心,然后针对每个待预测样本,计算该样本到各样本中心的距离,进一步根据分位数阈值筛选出距离待预测样本较近的部分子模型,从而构建起新的集成模型。此修剪技术充分考虑待预测样本的个体差异性,筛选出因样本而异的子模型集,以此减少Bagging子模型数目,获得预测任务的加速以及性能的提升。(3)在上述两种独立修剪技术的基础上提出一种两阶段的混合修剪方法。本文中提出的基于正确率和基于距离的修剪方法分别记为P1和P2,依据前后顺序,两阶段混合修剪方法包含两种修剪方式,分别称为P1+P2和P2+P1。P1+P2方法是指针对基于正确率的修剪方法P1筛选出的子模型,进一步利用基于距离的修剪技术P2进行筛选;而P2+P1方法恰好顺序相反,先利用P2修剪,再应用P1进行筛选。两阶段混合修剪方法结合了两种独立修剪技术各自的优点,可进一步缩减子模型的数目并提升模型预测性能。最后,本文使用来自UCI的28种数据集,针对上述提出的修剪方法进行5折交叉验证。在实验阶段采用四种-基分类器进行对比研究,分别包括决策树、高斯朴素贝叶斯、K-近邻和逻辑回归。实验结果证明,对传统Bagging算法的修剪不仅可以有效解决集成模型占用内存大等问题,还可以进一步提高预测精度。大多数情况下,本文提出的两阶段混合修剪方法的预测性能要优于几种类似的优化方法。
其他文献
在全球金融市场中,存在着大量的金融衍生产品,伴随金融衍生产品产生的就是风险.如果想要对风险进行有效的管理,那么就需要对这些衍生产品进行合理的定价.金融衍生产品包括期
背景:幽门螺杆菌(Helicobacter pylori,H.pylori)是一种螺旋状、带鞭毛,定植于胃黏膜的微需氧革兰氏阴性杆菌,在全球范围内的感染率约为50%。H.pylori感染可导致慢性胃炎、消
建筑中常遇到没有楼板的框架结构(构件),由于悖于常理,施工颇为困难。针对典型工程实例,通过对悬挑脚手架原理的应用改进,解决了混凝土框架结构在没有楼板情况下的作业难题,通过建立
个旧锡矿区位于云南省个旧市,是全球著名的锡矿产地,贾沙杂岩体位于个旧西区。经过数十年的研究,个旧贾沙杂岩体的成因及其形成的大地构造环境仍然是一个长期争论而仍在探索
随着地下空间的开发利用,降压井数量亦累积增多,但封井的质量引发结构环境影响的问题堪忧,且封井的质量验收也没有统一的标准。有鉴于此,通过对降压井封井方法和封堵效果进行的调
思想政治教育在提升大学生就业竞争力中发挥着不可或缺的重要作用,思想政治教育有利于提高大学生的科学文化素质,有利于提高大学生的心理素质,有利于提高大学生的思想道德素