论文部分内容阅读
增量式学习是机器学习领域的一个重要研究方向。在增量式学习中,训练数据是只能分批获得并用于训练的。增量式学习方法需要能够从新的数据集中学习新的知识,并在不访问旧数据集的情况下保留从旧的数据集中学习到的知识。在本文中,我们主要研究基于神经网络集成的增量式学习算法。首先,我们对简单的增量式学习问题进行研究,并提出了基于负相关学习和选择性集成学习的方法,即选择性负相关学习的方法(Selective Negative Correlation Learning,SNCL)。在SNCL中,对新来的数据集,使用已有的神经网络集成的副本,通过负相关学习算法来学习,使得神经网络集成能够更好的对新来的数据集进行学习,同时在一定程度上保留已学习过的信息。学习过后,将新的神经网络集成加入到原有的神经网络集成中,再对神经网络集成中的个体进行选择,使得神经网络集成的大小不会随着新的数据的到来而增大。我们使用了3个UCI数据库上的数据集以及2个生物学上的数据集进行实验,将SNCL与另外两种基于负相关学习的方法比较,同时也与其他已有方法,做了简单的分析比较,通过实验证明了SNCL的有效性。随后,考虑到增量式学习中比较容易出现类别不平衡的情况,为了更好的研究在增量式学习模式下的类别不平衡情况,我们深入研究了在非增量式学习中的类别不平衡问题。在这部分研究中,我们通过分析类别不平衡问题的特点及难点,以及已有算法的特点,从而引出在训练过程中对样本进行动态采样的思路,并基于此思路设计了基于多层感知机(Multi-Layer Perceptrons,MLP)的动态采样算法(Dynamic Sampling,DyS)。在DyS中,我们使用MLP做为基本分类器,并且采用逐个样本训练的模式。在训练的过程中,根据MLP对训练样本的学习的实时状态来决定每个样本是否要被用于更新MLP的连接权值。选择样本的标准兼顾了类别不平衡的情况和各个样本的难易程度,使得DyS能够同时侧重于小类的样本和那些更难被分类的样本。我们使用了18个UCI数据库上的多类的类别不平衡数据集进行实验,将DyS和其他相关的方法比较,包括预采样方法,代价敏感学习方法,boosting类方法和主动学习方法。实验结果表明,DyS能获得比其他方法更好的性能。最后,在前面两项研究的基础上,我们研究了类别不平衡的增量式学习。其中主要考虑的情况包括:整体的训练集是类别不平衡的从而导致各个子训练集是类别不平衡的,在新的子训练集中并伴随着新类别的出现和旧类别的缺失;整体训练集是类别平衡的,但是由于采样偏差而造成各个子训练集是类别不平衡的,同时也有新类别的出现和旧类别的缺失。我们在这部分研究中提出一种新的算法框架,即混合集成模型的选择性继续学习(Selective Further Learning with Hybrid Ensemble, SFLHE)。我们使用了MLP和朴素贝叶斯(Naive Bayes, NB)这两种类型的分类器做为集成的组成部分,并对集成中的每个个体设置了一个影响权值,并使用每个个体的输出在影响权值上的加权平均做为集成整体的输出。同时,使用了负相关学习来训练MLP集成的训练,并在MLP集成和NB模型的训练中,考虑了类别不平衡的情况,使得SFLHE可以解决类别不平衡的增量式学习问题。我们使用了3个人工的数据集和10个UCI数据库上的实际数据集来模拟增量式学习的过程进行实验,并通过实验证明了SFLHE可以有效解决类别不平衡的增量式学习问题。同时,通过对SFLHE的组成部分的深入分析,说明了SFLHE可以很好的组合其两种类型的组成部分MLP和NB的优点,以获得同时优于这二者的性能。