论文部分内容阅读
与传统静态数据相比,数据流具有实时性,海量性,单次扫描以及动态变化性的特点。近年来,对数据流分类研究的算法日益增多,但是其中大部分算法是在假设数据分布平衡或者接近平衡下完成的。然而,实际生活中越来越多的领域如监控系统的故障诊断、网络入侵、信用卡欺骗、电信管理,溢油检测、文本分类等,其中的数据分布严重不平衡,此时错分少类往往造成很大的损失。因此,针对不平衡数据流,如何在提高少类分类精度的同时不降低多类分类精度是该领域研究的热点和难点。此外,概念漂移是研究数据流分类的另一难题,尤其是当概念漂移和不平衡结合时,使数据流分类面临更大的挑战。目前,提出的大多数集成分类算法是基于数据块的思想,由于像滑动窗口一样算法对块的大小太多敏感,因此一般假设在一个数据块中不存在漂移,显然这并不符合实际数据情况。因此针对该假设,本文提出了非平稳环境下基于动态数据块的不平衡数据流分类算法,主要算法思想如下:(1)SMDC(selectively approach with dynamical chunk size for mining imbalanced data stream in nonstationary environment):通过加入不平衡类漂移检测机制来实时调整当前数据块的大小,以确保当前数据块中的样本来自同一概念,从而提高分类模型的抗概念漂移能力。在漂移检测器中,与传统的采用整体精度检测概念漂移方法不同,文中提出一种可以应用于不平衡数据流的检测机制,不仅可以检测发生在多类的漂移还能检测出发现在少类的漂移,同时排除一定噪声的影响。此外,基于大数据处理思想,文中对少类样本进行选择性保留,再通过对多类进行无重复的下采样,在避免随着数据到来少类样本数超多多类样本数的同时,提高分类精度。最后通过在不同人工和真实实验数据集上,与其他分类方法对比,结果表明本文提出的方法在分类精度有很好的实验效果,此外算法对含有频繁快速漂移的数据流具有很好的鲁棒性。(2)SMDCWE(selectively weighted ensemble with dynamical chunk size for mining imbalanced data stream)算法思想:为了避免遗忘老样本中的重要知识的同时提高算法对不同类型概念漂移的适应能力,在基于动态数据块的分类算法中加入加权机制,通过在线投票保留以前学习过的分类器,最后在含有多种类型概念漂移的数据集上的进行实验,证明了该算法在不平衡数据分类中能取得较高的分类精度以及在预测概念漂移发生位置时更加敏感。