基于CART算法的集成式增量学习算法研究与应用

来源 :北京工业大学 | 被引量 : 1次 | 上传用户：flurryzhang

【摘要】

：

【作者】

：

王萌

【出处】

：

北京工业大学

【发表日期】

：

2019年01期

【关键词】

：

增量学习 CART 集成学习选择性集成

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在大数据被广泛应用的背景下,如何有效地训练海量数据,提高预测模型的可扩展性与准确性;如何克服传统机器学习算法中的“稳定性-可塑性灾难”,提升模型对不断涌入的新数据的处理能力,使得算法能够持续、高效地学习新数据,获得有价值的信息来完善预测模型,已成为实际应用中亟待解决的问题。增量学习算法不仅能够采用增量的方式逐步处理海量数据,而且能够克服“稳定性-可塑性灾难”,高效地学习新数据,持续训练、更新模型。决策树算法是机器学习分类算法中应用最为广泛的算法之一,但其不具备增量学习的能力,因此增量决策树的研究一直以来都受到广泛关注。目前,关于决策树的增量学习算法如ID5R算法及其相关改进算法,均是始终将一棵决策树作为分类器,在初始决策树的基础上不断地调整决策树分支。然而,单个分类器的分类能力是有限的,相对于单个分类器而言,集成学习能够显著地改善学习系统的泛化性能。因此,本文主要研究如何利用集成学习方法改进CART决策树,使其具备增量学习的能力,能够增量地处理海量数据,高效地学习新数据,持续更新完善预测模型。并针对集成式增量学习算法中存在的问题,探究基分类器间差异性与精确度的关系,借助“选择性集成”理论构造更优的分类器子集,进一步提高算法分类性能。本文主要研究内容如下:1.为克服CART决策树算法的“稳定性-可塑性灾难”问题,将CART决策树算法与Learn++增量学习算法结合,实现了一种基于集成学习方法的CART决策树增量学习算法——I-CART算法。该算法使得CART决策树具备了增量学习的能力,提高了学习新数据的效率,增强了算法分类性能。2.为增强I-CART算法中基分类器投票权重的客观公正性,避免分类困难样本的过大权重影响集成分类器的分类性能。采用Kappa系数作为I-CART算法中基分类器的投票权重,实现了I-CART.Kappa算法,进一步降低了I-CART算法的分类误差率。3.针对集成式增量学习算法中,最终集成分类器规模庞大而引发的预测开销增大,分类速率降低等问题。充分研究了基分类器间差异性与精确度的关系,基于“选择性集成”思想提出了“纵向划线法”与“横向划线法”两种选择性集成算法。上述选择性集成算法通过选择差异性大且精确度高的基分类器,在保证分类性能的同时,能够显著减小集成分类器规模,提高预测速率。4.基于UCI数据集设计了对比实验,证实了I-CART.Kappa算法与选择性集成算法的有效性。5.在AOTP航班信息数据集上,利用本文算法构建航班延误预测模型,充分证明本文提出的增量学习算法的高效性与实用性;借助Apache Kafka设计并开发了实时航班延误预测系统,实现了航班信息的实时预测、航班预测模型的自动训练及更新。

其他文献

经全反式维甲酸干预诱导的鼠胚神经干细胞联合鼠神经生长因子移植治疗脊髓损伤大鼠研究

目的:单纯应用神经干细胞(neural stem cells)移植治疗脊髓损伤的相关动物实验并不理想,因此在实验中提高移植神经干细胞分化为神经元的比例被认为是提高干细胞移植疗效的潜在手段。既往大量研究已经证实全反式维甲酸(all-trans retinoic acid)可以促进动物体内神经细胞的再生和修复,并可显著提高神经干细胞向神经元分化的比率。神经生长因子(nerve growth facto

学位

神经干细胞全反式维甲酸鼠神经生长因子脊髓损伤移植功能恢复

美国家庭教育热

<正> 因近年来美国的中小学教育质量低劣,开始出现家庭教育热,正冲击着义务教育法。马森夫人自己在家里给七岁的女儿、五岁的儿子上阅读和数理课,结果违反了义务教育法,美国

期刊

义务教育法

加强林业经济管理，实现林业可持续发展

近些年可持续发展理念的贯彻落实,使林业部门越来越注重优化林业经济管理工作,这一工作的开展不仅可以保障林业自然生态环境,而且可以推动林业实现可持续发展。从当前林业经

期刊

林业经济管理可持续发展

酸雨环境下绿色CA砂浆抗侵蚀性能研究

文章借鉴混凝土领域改性经验,在改性CA砂浆基础研究之上,制备最佳掺合料下的绿色CA砂浆,并模拟绿色CA砂浆试块在受到酸雨侵蚀之后的情况,测试其抗酸性介质侵蚀能力。结果表明

期刊

无砟轨道CA砂浆化学介质耐蚀性

有机五谷杂粮包装设计方案

期刊

五谷杂粮包装设计

浅谈生物质气化发电技术及应用潜力

针对云南及东南亚地区的生物质资源特点和经济发展水平等情况．生物质气化发电比生物质直燃发电更有优势。可采用生物质气化联合循环发电的形式提高发电效率，尤其是生物质气化发

期刊

生物质能气化发电直燃发电云南省东南亚多联产技术

克拉申假说在提高高中后进生英语学习兴趣中的运用

普通高中英语课程标准强调激发学生学习兴趣的重要性。本文在阐释语言学家克拉申的二语习得理论特别是情感过滤假说和输入假说的基础上,结合教学实践,提出了提高中学英语后进

期刊

英语学习兴趣克拉申理论情感体验学习内容教学手段

匡正倾斜的叙事——当下中国电影叙事透视

在西方探索电影的簇拥下,近二十多年的中国电影创作,一直潜存着一种个人化的、形式主义的风尚,这种追求虽然促成了中国电影多元化、艺术化发展局面的形成,但它也使中国电影不

期刊

中国电影叙事形式主义西方探索电影传统叙事

服务型行政标准与司法审查标准——构建我国政府信息公开范围双重标准的思考

公开范围是政府信息公开制度最核心的内容,也是最难以把握的内容。本文提出,应当区分并适用不同的标准判断政府信息公开范围,其一是"服务型行政标准",适用于解决"什么是可以

期刊

行政公开服务性行政标准司法审查标准

椭圆运动对脑卒中偏瘫患者平衡及步行能力的影响

目的探索椭圆运动对脑卒中偏瘫患者平衡和步行能力的影响。方法 2016年9月至12月,40例卒中后偏瘫患者随机分为对照组（n=20）和观察组（n=20）。两组均接受常规康复治疗,在此基础上对

期刊

脑卒中偏瘫椭圆运动任务训练平衡步行能力

基于CART算法的集成式增量学习算法研究与应用

与本文相关的学术论文