具有概念漂移的数据流分类研究

来源 :安徽工程大学 | 被引量 : 0次 | 上传用户:liqiran
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类问题作为数据挖掘领域的经典课题,一直以来广受学术界关注。然而,随着物联网技术和“大数据”时代的到来,传统数据分类方式正面临严峻挑战。首当其冲的就是数据形式的改变,由传统静态数据转变为动态数据流形式,数据以一种全新的数据类型存在并广泛应用于各领域。如何挖掘出这些数据流中有价值的信息,已成为当前研究的热点问题。与传统静态数据相比较,数据流具有快速性、无限性、连续性、多变性等特征,同时数据流隐含噪声、存在概念漂移等问题,导致传统分类模型面对动态数据流问题难以适应。如何构建既能满足数据流特性,又能对数据流进行有效处理的分类模型,是国内外研究人员密切关注的问题。因此,开展面向概念漂移数据流分类方法的研究具有重要研究意义和应用价值。虽然目前在数据流分类研究上已经取得一定研究成果,但针对数据流中含有噪声数据以及存在概念漂移现象等问题的研究还存在着明显不足。鉴于此,本文聚焦于动态数据流分类问题,围绕集成学习和选择性集成学习两个方面,对隐含噪声、存在概念漂移现象的数据流分类展开研究,主要工作总结如下:1.概述数据流的基本概念、研究背景及意义;总结数据流挖掘常用处理方法,介绍数据流中概念漂移现象及常用处理手段,并对目前概念漂移数据流分类仍面临的问题进行描述;最后论述并分析现阶段在噪声及概念漂移环境下常用的数据流分类模型及其分类特点,归纳构建概念漂移数据流分类模型应注重哪些关键问题,为开展本文相关研究工作奠定基础。2.对集成学习进行深入研究,针对隐含噪声和存在概念漂移现象的数据流分类问题,设计一种基于分类器相似性加权和差异性集成的数据流分类方法。用最新基分类器作为参照分类器,代表数据流中即将出现的概念,基于此分类器通过Gower相似系数求出基分类器之间的相似性,并以相似性作为基分类器权值进行加权多数投票,同时采用Q-statistic方法衡量基分类器差异性,把差异性作为基分类器更新淘汰策略来提高集成分类模型多样性。最后通过仿真实验证明所提集成分类方案的研究思路是可行的,在分类准确率和稳定性方面均有不错表现。3.对选择性集成进行归纳分析,考虑到集成学习在构建分类模型时存在集成规模大、训练时间长、时空复杂度高等不足,提出一种基于蚁群优化的选择性集成数据流分类方法。该方法在挑选基分类器时,考虑分类精度的同时兼顾基分类器差异性,利用蚁群优化算法的寻优能力,选出分类精度高、个体差异性大的基分类器来构建集成分类模型。最后在标准仿真数据集上对构建的集成分类模型进行仿真,结果表明该方法与传统集成方法相比在准确率和稳定性方面均有显著提高。最后,给出现阶段概念漂移数据流分仍面临的挑战,并针对这些问题简单论述概念漂移数据流分类未来的发展趋势。
其他文献
<正>我国修裱技术历史悠久,早在1500年前就有明确史料记载,是我们祖先留给档案、图书和博物部门的一份共同的宝贵文化遗产。修裱技术是修复破损档案的主要技术,也是图书、字
以苏州地区纳米产业为主要研究对象,在对苏州纳米产业标准化现状进行调研的基础上,分析了苏州地区纳米产业标准化的现状和生态环境,阐述了推进纳米标准化对苏州纳米产业的意
研究背景:乳腺癌属于高度异质性的恶性肿瘤,存在很多不同的病理类型。不一样的病人的临床诊治具有较大的差异性,预后也表现出多种结果。三阴性乳腺癌的发生概率占所有乳腺癌
本文将发达国家保险产业竞争力现状和发展中国家保险产业竞争力现状放在起研究,着重强调与中国发展相近的几个发展中国家的保险产业竞争力情况,同时对我国保险产业竞争力情况
清代宫廷有一个传教士群体,他们秉承皇帝的意志运用西方技法进行绘画创作,在康、雍、乾三朝,他们的油画作品反映了清代战争、记录了民族融合、彰显了满洲文化,在中西文化交流
核酸与蛋白质是组成生命的主要生物大分子,二者的相互作用构成了诸如生长、繁殖、遗传和代谢等生命现象的基础。从单分子水平上对它们的相互作用进行纳米探测,有利于人们更加
<正>旧的北极也许是冷酷的,但它至少是稳定的。新的北极正以不可逆转的态势发生变化,并对全球的生命产生连锁反应。2003年,美国国家科学基金会组织了一次学术休假。正是这次
铝合金由于具有密度小、比强度高、耐腐蚀等优良的特性,成为汽车轻量化的理想材料。成形极限图(Forming Limit Diagram,FLD)经常用作判断金属板材成形性能,在工业中得到了广
脑血管疾病是指供应脑部血液的血管的疾病所致的一种神经系统疾病,以其高发病率、高死亡率、高致残率、高复发率成为严重威胁人类生命与健康的主要疾病之一,主要包括缺血性和出
当前,不可再生能源消耗所带来的经济和环境问题日益突出,开发高效的绿色能源材料并发展新型能源器件是解决这一问题的重要途径之一。多孔碳材料具有环境友好、成本低等优势,