论文部分内容阅读
随着互联网、移动通信、物联网等领域的飞速发展,所产生的数据呈指数增长,数据的形式也从传统的静态数据向动态数据流形式转变,如何快速有效地获取数据流中蕴含的知识变得尤为重要。在现实生活中,环境的变化使得数据中蕴含的知识可能发生变化,传统的批量学习方法在处理动态变化的数据流时遇到了诸多挑战。因此,设计一种能实时地处理动态数据流的模型成为了迫切的需要。增量学习是机器学习领域一个前沿的研究方向,它是指在保留绝大多数以前学到的知识的情况下学习新知识。早期研究的单分类器增量学习模型在学习过程中易产生“知识的遗忘”和存在稳定性差等问题,集成学习的引入有效的提高了增量学习的学习能力,但模型的规模更为庞大。本文采用集成多个基分类器构建集成模型,以对不断累积的数据进行增量学习,旨在建立一个高效精确的增量学习模型,以便对数据流进行预测。论文主要完成了以下工作:第一,近年关于集成式增量学习的研究大多采用加权投票的方式将多个同质分类器进行结合,并没有很好的解决增量学习中的稳定-可塑性难题。针对此提出了一种异构分类器集成增量学习算法。该算法在训练过程中,为使模型更具稳定性,用新数据训练多个基分类器加入到异构的集成模型之中,同时采用局部敏感哈希表保存数据梗概以备待测样本近邻的查找;为了适应不断变化的数据,还会用新获得的数据更新集成模型中基分类器的投票权重;对待测样本进行类别预测时,以局部敏感哈希表中与待测样本相似的数据作为桥梁,计算基分类器针对该待测样本的动态权重,结合多个基分类器的投票权重和动态权重判定待测样本所属类别。通过对比实验,证明了该增量算法有比较高的稳定性和泛化能力。第二,传统的集成式增量学习算法随着学习次数的增加,集成模型的规模不断增大。针对此问题提出了一种选择性学习的集成增量学习算法,该算法在训练过程中,先用集成模型里最近使用的基分类器对新获得的数据进行增量学习,如果分类器增量学习后在此最近数据集上的分类准确率得到提升,则将增量学习后的模型代替该基分类器;若没有提升,则用前一个基分类器进行相同操作,直到遍历所有基分类器,若集成模型中所有分类器增量学习后的效果都不好,则重新训练一个基分类器加入集成模型。若分类器数量达到预定阈值,删除最旧的基分类器。学习完成后,对每个分类器用Stacking方法将基分类器进行组合得到集成模型。通过对比实验,证明了该增量算法规模较小,有比较高的稳定性和泛化能力。