论文部分内容阅读
随着信息科技的快速发展,很多应用领域产生了大量的现实数据。如网络安全、股票分析、电子商务、气象监控等领域。在这些数据中可能隐含着丰富的、有价值的、亟待挖掘的信息,并且人们对这些信息的需求也变得越来越迫切,这无形中都推动了数据流研究的快速发展。数据流中的数据普遍具有快速性、连续性、多变化和无限性等特点,且概念漂移现象常常出现。这使得建立在原始数据集上的模型不再适应,从而给传统分类问题提出了极大的挑战。为此,本文针对概念漂移问题展开了一系列的研究,主要工作如下:(1)概述概念漂移数据流处理普遍存在的问题,分析已有算法在处理概念漂移问题时存在的优缺点。(2)数据流的快速性等特性对模型的时空性能有更高的要求。针对此问题,研究并提出了一种基于单窗口的概念漂移数据流分类算法SWCDS。该算法采用随机森林作为基础模型,使用滑动窗口机制检测概念漂移,并根据检测结果动态地调整分类器模型使其更适应新概念数据。实验表明:与已有的代表性的概念漂移数据流分类算法相比,该算法在保证时空性能的同时具有较优的分类精度和抗燥性。(3)单窗口机制中窗口值较大有利于低漂移率的数据流处理,却不适应新的目标函数;窗口值较小能快速地适应概念漂移,却常常由于实例不足导致学习不充分。针对此问题,设计并提出了一种基于双层窗口的概念漂移数据流分类算法DWCDS。该算法采用SWCDS算法中的随机森林作为基础模型,利用双层窗口机制周期性地检测滑动窗口中流数据分布的变化,并动态地更新模型以适应概念漂移。实验表明:双层窗口机制比单窗口具有更优的漂移检测能力。(4)基于以上工作,设计并实现了概念漂移数据流分类系统DWCDS,该系统集成了SWCDS与DWCDS两种算法,为概念漂移数据流分类提供了一个实验平台。