非平稳环境下基于动态数据块的不平衡数据流分类研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户：liwei20062

【摘要】

：

与传统静态数据相比,数据流具有实时性,海量性,单次扫描以及动态变化性的特点。近年来,对数据流分类研究的算法日益增多,但是其中大部分算法是在假设数据分布平衡或者接近平

【作者】

：

刘妮妮

【出处】

：

湖南大学

【发表日期】

：

2017年期

【关键词】

：

不平衡数据概念漂移动态块集成分类器下采样

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

与传统静态数据相比,数据流具有实时性,海量性,单次扫描以及动态变化性的特点。近年来,对数据流分类研究的算法日益增多,但是其中大部分算法是在假设数据分布平衡或者接近平衡下完成的。然而,实际生活中越来越多的领域如监控系统的故障诊断、网络入侵、信用卡欺骗、电信管理,溢油检测、文本分类等,其中的数据分布严重不平衡,此时错分少类往往造成很大的损失。因此,针对不平衡数据流,如何在提高少类分类精度的同时不降低多类分类精度是该领域研究的热点和难点。此外,概念漂移是研究数据流分类的另一难题,尤其是当概念漂移和不平衡结合时,使数据流分类面临更大的挑战。目前,提出的大多数集成分类算法是基于数据块的思想,由于像滑动窗口一样算法对块的大小太多敏感,因此一般假设在一个数据块中不存在漂移,显然这并不符合实际数据情况。因此针对该假设,本文提出了非平稳环境下基于动态数据块的不平衡数据流分类算法,主要算法思想如下:(1)SMDC(selectively approach with dynamical chunk size for mining imbalanced data stream in nonstationary environment):通过加入不平衡类漂移检测机制来实时调整当前数据块的大小,以确保当前数据块中的样本来自同一概念,从而提高分类模型的抗概念漂移能力。在漂移检测器中,与传统的采用整体精度检测概念漂移方法不同,文中提出一种可以应用于不平衡数据流的检测机制,不仅可以检测发生在多类的漂移还能检测出发现在少类的漂移,同时排除一定噪声的影响。此外,基于大数据处理思想,文中对少类样本进行选择性保留,再通过对多类进行无重复的下采样,在避免随着数据到来少类样本数超多多类样本数的同时,提高分类精度。最后通过在不同人工和真实实验数据集上,与其他分类方法对比,结果表明本文提出的方法在分类精度有很好的实验效果,此外算法对含有频繁快速漂移的数据流具有很好的鲁棒性。(2)SMDCWE(selectively weighted ensemble with dynamical chunk size for mining imbalanced data stream)算法思想:为了避免遗忘老样本中的重要知识的同时提高算法对不同类型概念漂移的适应能力,在基于动态数据块的分类算法中加入加权机制,通过在线投票保留以前学习过的分类器,最后在含有多种类型概念漂移的数据集上的进行实验,证明了该算法在不平衡数据分类中能取得较高的分类精度以及在预测概念漂移发生位置时更加敏感。

其他文献

以“人民群众健康”为中心推动护理事业稳步发展

近年来,随着医疗技术水平的提高,社会老龄化进程的发展,以及人民群众对健康需求的增加,护理面临着前所未有的挑战和机遇。全国广大护理工作者凝心聚力,共同在开创护理事业发

期刊

护理事业健康需求优质护理服务

预计利润表的编制——基于印制电路板行业的案例分析

文章首先阐述了企业编制全面预算的重要性,全面预算包括运营预算和财务预算,运营预算的编制需要汇总各种预算,包括销售预算、生产预算、直接材料预算、直接人工预算等,运营预

期刊

全面预算运营预算财务预算销售预算的编制预计利润表的编制

基于SolidWorks的数控回转立体库的自动设计

数控回转立体库是物流系统中一种重要的设备,与传统仓储方式相比,能够节省大量的存储空间及存储时间,并可进行有效地管理。它可以用作仓库,也可直接用在生产线上。在国内外已

学位

数控回转立体库结构优化参数化绘图设计自动化SolidWorks

国产聚乙烯醇助分散剂对悬浮法聚氯乙烯树脂颗粒特性的影响

在聚乙烯醇/羟丙基甲基纤维素复合主分散体系基础上加入聚乙烯醇助分散剂,对比研究了国内外同类型聚乙烯醇对分散体系界面张力、保胶能力和聚氯乙烯树脂颗粒形态的影响。结果

期刊

聚氯乙烯悬浮聚合聚乙烯醇分散剂颗粒形态

尿毒症并发双侧股四头肌腱断裂2例报告

<正>自发性双侧股四头肌肌腱断裂很罕见,国内鲜有报告,这类疾病通常被认为继发于一些系统性疾病,如慢性肾炎、甲状旁腺功能亢进、糖尿病、系统性红斑狼疮、痛风、肥胖、银屑

期刊

尿毒症股四头肌腱断裂

入境旅游与第三产业增长的区域差异研究——基于2002-2011年数据的实证检验

研究旅游活动与第三产业的关系,分析两者相互影响的原因与途径,对于促进旅游业的发展和第三产业的增长都有重要意义。运用Eview软件对2002-2011年我国31省(市、自治区)国际旅

期刊

入境旅游第三产业增长面板数据协整检验因果检验

气管切开护理项目成本研究

目的:探讨气管切开护理成本核算的方法。方法:依据美国护理干预服务项目分类原则,完成气管切开护理成本分类,核算了气管切开护理成本。结果:气管切开护理可分为7个项目,并核

期刊

气管切开护理成本核算

高年级识字教学方法浅探

<正>在小学语文高年级教学中,老师更加注重学生阅读能力的培养与作文水平的提高,未将识字教学纳入重点教学范围,导致字词教学比重偏低,很多学生的识字辩词水平不高,制约了其

期刊

高年级学生猜字谜教学方法

合作原则在基础德语教学中的应用

"合作原则"是由美国语言学家格莱斯(H.P.Grice)在哈佛大学的一次演讲中所提出来的。格莱斯将双方在交谈中所必须相互配合,共同信守的原则称之为"合作原则"。而课堂教学就是由

期刊

合作原则课堂教学学生

可控流变工艺生产无纺布专用PP树脂

选择合适的基础树脂、降解剂,在国产第二代环管聚丙烯(PP)装置上采用可控流变工艺生产无纺布专用树脂。以熔体流动速率(MFR)为(6±1)g/10 min的PP粉料为基础树脂,采用降解剂B

期刊

聚丙烯可控流变工艺无纺布

非平稳环境下基于动态数据块的不平衡数据流分类研究

与本文相关的学术论文