论文部分内容阅读
概念漂移问题是指学习模型试图预测的?标变量的统计特性会随着时间的推移以不可预见的?式发?变化。在?前?数据时代背景下,各种不同的信息系统、预警系统以及决策?持系统每时每刻都会产??量的数据,形成以时间为索引的数据流。这些数据流中所包含有价值的特征信息会随快速变化的环境发?不可预见的变化,即存在概念漂移问题。这就迫切需要?适应机器学习?法来应对概念漂移问题,?于实现?效可靠的数据挖掘和智能决策。概念漂移?适应学习?法在基于数据驱动的信息系统中具有重要的研究价值和应?前景。概念漂移?适应学习?法主要分为三个部分:概念漂移检测、概念漂移理解和概念漂移适应。在概念漂移检测的研究中,?多数研究是基于学习机错误率的漂移检测?法,这类?法依赖于学习机对当前数据流的预测结果,不能检测数据分布的变化。少数研究是基于数据分布的概念漂移检测?法,这类?法直接监测数据服从分布的变化,但?对漂移程度较?和?样本量数据时鲁棒性较差。在概念漂移理解的研究中,所有概念漂移检测?法都可以输出漂移发?的时间,但仅有少数?法能够输出概念漂移发?的程度和区域等信息。漂移发?的时间可以?作对概念漂移开始进?适应学习的信号,?漂移发?的程度和区域信息可以?作学习机适应概念漂移的输?。在概念漂移适应的研究中,重新训练模型和?适应模型通过结合漂移检测?法能够及时调整当前学习机处理突变漂移、渐变漂移和增量漂移,但由于不能存储过去学习到的概念,所以不能处理重现概念这种漂移类型。?适应集成学习模型通过动态调整多个基分类器的投票权重来应对包括重现概念在内的各种漂移类型,但存在计算复杂度较?的问题。针对上述问题,本?提出基于胜任?模型的概念漂移?适应学习?法。本?主要研究内容和创新成果包括:(1)在概念漂移检测的研究中,本?提出?种基于模糊胜任?模型的概念漂移检测?法。该?法使?模糊胜任?模型对历史数据和当前数据建模,获得经验数据分布,通过计算两个经验数据分布之间的距离,并使?假设检验确定概念漂移的发?。该概念漂移检测?法具备更?的漂移检测的准确率,在检测变化程度?的概念漂移上更具有优势。(2)在概念漂移理解的研究中,本?提出?种基于胜任?模型的差异密度估计的概念漂移区域识别?法。该?法在基于胜任?模型的离散空间中计算经验数据分布的局部差异,利?基于胜任?模型的差异密度估计重新将离散空间上的局部差异重新映射回连续数据特征空间,实现概念漂移区域识别。该概念漂移区域识别?法可以更精确地识别出概念漂移发?的区域,并对识别出的区域提供由漂移引起的差异量化值。(3)在概念漂移适应的研究中,本?提出?种基于主动模糊权重集成学习的概念漂移适应?法。该?法使?漂移检测算法的输出信息作为集成学习机选择概念漂移适应策略的依据,通过集成每个基分类器的单独预测和基分类器对应投票权重来进?最终预测。当检测到概念漂移后,该?法对漂移检测算法中的缓存数据实例使?模糊实例赋权,利?赋权的数据实例对所有基分类器的投票权重进?调整。通过动态调整投票权重和保留每?个新增基分类器,使得该?法具备应对包括重现概念在内的不同概念漂移类型的能?。该概念漂移适应?法可以更快地适应概念漂移所引起的变化,并且降低了?适应集成学习中的计算复杂度。