论文部分内容阅读
近年来,随着时代的进步,信息技术的迅猛发展,在实际应用中,有许多数据会随着时间的变化而不断变化,想要一次性获得所有的数据作为机器学习算法需要的训练样本是很困难的,有时是不现实的。面对这类不断更新、动态变化的信息数据,如果每一次都将新增的数据与原有数据放在一起,对所有数据进行重新学习,不但造成了时间和空间上的巨大浪费,而且使学习过程不具有一定的延续性,不太符合人类循序渐进的学习习惯。因此,迫切需求研究有效的机器学习算法和模型来解决此类问题。增量学习方法是解决从海量数据中学习分类知识的有效途径,是对不断更新的数据进行学习的方法之一,是在保留原有学习结果的基础上,仅对新增的数据进行再学习,从而形成一个连续的学习过程。目前,国内外对增量学习已经有一些研究,主要有基于支持向量机算法的增量学习、基于神经网络的增量学习、基于决策树的增量学习研究或将决策树与神经网络结合的增量学习研究等。构造性机器学习方法——覆盖算法学习速度快、复杂度低、可解释性强,能有效地解决有导师学习问题,并取得了很好的效果。本文首先将覆盖算法理论与增量学习的思想相结合进行研究,提出了基于覆盖的增量学习算法。然后,针对增量学习过程中新样本的不断出现及概念迁移问题的发生,引入了三种淘汰遗忘机制,并对这三种基于覆盖的遗忘机制进行了详细的介绍。尤其重要的是基于覆盖的增量学习研究为实际应用中动态变化的数据的分析与处理提供了一个合理的学习模型,为解决机器学习过程中知识动态获取和更新问题提供了一种全新的思路和方法。本文的主要工作包括:1.概述了增量学习的研究背景和意义,国内外研究的现状,并对增量学习常用的分类模型进行了详细介绍。2.主要介绍了覆盖算法及对其的改进。由于覆盖算法构造神经元的权值即取新覆盖中心时通常人为地给定一个准则,并未遵循样本的分布特征求得最优解。因此采用佳点集理论求取覆盖中心,以改进覆盖算法。3.根据覆盖算法原理,结合增量学习的思想,提出了基于覆盖的增量学习算法。该算法利用改进的覆盖算法作为基础学习器,通过连续地对新增样本进行测试而反复不断地提炼已有模型,体现了对样本的“渐近式”学习。通过对标准数据集的实验结果表明,该算法是有效的。4.在增量学习过程中,引入了三种淘汰遗忘机制,介绍了三种基于覆盖的遗忘机制的思想,并进行了实验与分析。