论文部分内容阅读
在大数据被广泛应用的背景下,如何有效地训练海量数据,提高预测模型的可扩展性与准确性;如何克服传统机器学习算法中的“稳定性-可塑性灾难”,提升模型对不断涌入的新数据的处理能力,使得算法能够持续、高效地学习新数据,获得有价值的信息来完善预测模型,已成为实际应用中亟待解决的问题。增量学习算法不仅能够采用增量的方式逐步处理海量数据,而且能够克服“稳定性-可塑性灾难”,高效地学习新数据,持续训练、更新模型。决策树算法是机器学习分类算法中应用最为广泛的算法之一,但其不具备增量学习的能力,因此增量决策树的研究一直以来都受到广泛关注。目前,关于决策树的增量学习算法如ID5R算法及其相关改进算法,均是始终将一棵决策树作为分类器,在初始决策树的基础上不断地调整决策树分支。然而,单个分类器的分类能力是有限的,相对于单个分类器而言,集成学习能够显著地改善学习系统的泛化性能。因此,本文主要研究如何利用集成学习方法改进CART决策树,使其具备增量学习的能力,能够增量地处理海量数据,高效地学习新数据,持续更新完善预测模型。并针对集成式增量学习算法中存在的问题,探究基分类器间差异性与精确度的关系,借助“选择性集成”理论构造更优的分类器子集,进一步提高算法分类性能。本文主要研究内容如下:1.为克服CART决策树算法的“稳定性-可塑性灾难”问题,将CART决策树算法与Learn++增量学习算法结合,实现了一种基于集成学习方法的CART决策树增量学习算法——I-CART算法。该算法使得CART决策树具备了增量学习的能力,提高了学习新数据的效率,增强了算法分类性能。2.为增强I-CART算法中基分类器投票权重的客观公正性,避免分类困难样本的过大权重影响集成分类器的分类性能。采用Kappa系数作为I-CART算法中基分类器的投票权重,实现了I-CART.Kappa算法,进一步降低了I-CART算法的分类误差率。3.针对集成式增量学习算法中,最终集成分类器规模庞大而引发的预测开销增大,分类速率降低等问题。充分研究了基分类器间差异性与精确度的关系,基于“选择性集成”思想提出了“纵向划线法”与“横向划线法”两种选择性集成算法。上述选择性集成算法通过选择差异性大且精确度高的基分类器,在保证分类性能的同时,能够显著减小集成分类器规模,提高预测速率。4.基于UCI数据集设计了对比实验,证实了I-CART.Kappa算法与选择性集成算法的有效性。5.在AOTP航班信息数据集上,利用本文算法构建航班延误预测模型,充分证明本文提出的增量学习算法的高效性与实用性;借助Apache Kafka设计并开发了实时航班延误预测系统,实现了航班信息的实时预测、航班预测模型的自动训练及更新。