论文部分内容阅读
分类问题作为数据挖掘领域的经典课题,一直以来广受学术界关注。然而,随着物联网技术和“大数据”时代的到来,传统数据分类方式正面临严峻挑战。首当其冲的就是数据形式的改变,由传统静态数据转变为动态数据流形式,数据以一种全新的数据类型存在并广泛应用于各领域。如何挖掘出这些数据流中有价值的信息,已成为当前研究的热点问题。与传统静态数据相比较,数据流具有快速性、无限性、连续性、多变性等特征,同时数据流隐含噪声、存在概念漂移等问题,导致传统分类模型面对动态数据流问题难以适应。如何构建既能满足数据流特性,又能对数据流进行有效处理的分类模型,是国内外研究人员密切关注的问题。因此,开展面向概念漂移数据流分类方法的研究具有重要研究意义和应用价值。虽然目前在数据流分类研究上已经取得一定研究成果,但针对数据流中含有噪声数据以及存在概念漂移现象等问题的研究还存在着明显不足。鉴于此,本文聚焦于动态数据流分类问题,围绕集成学习和选择性集成学习两个方面,对隐含噪声、存在概念漂移现象的数据流分类展开研究,主要工作总结如下:1.概述数据流的基本概念、研究背景及意义;总结数据流挖掘常用处理方法,介绍数据流中概念漂移现象及常用处理手段,并对目前概念漂移数据流分类仍面临的问题进行描述;最后论述并分析现阶段在噪声及概念漂移环境下常用的数据流分类模型及其分类特点,归纳构建概念漂移数据流分类模型应注重哪些关键问题,为开展本文相关研究工作奠定基础。2.对集成学习进行深入研究,针对隐含噪声和存在概念漂移现象的数据流分类问题,设计一种基于分类器相似性加权和差异性集成的数据流分类方法。用最新基分类器作为参照分类器,代表数据流中即将出现的概念,基于此分类器通过Gower相似系数求出基分类器之间的相似性,并以相似性作为基分类器权值进行加权多数投票,同时采用Q-statistic方法衡量基分类器差异性,把差异性作为基分类器更新淘汰策略来提高集成分类模型多样性。最后通过仿真实验证明所提集成分类方案的研究思路是可行的,在分类准确率和稳定性方面均有不错表现。3.对选择性集成进行归纳分析,考虑到集成学习在构建分类模型时存在集成规模大、训练时间长、时空复杂度高等不足,提出一种基于蚁群优化的选择性集成数据流分类方法。该方法在挑选基分类器时,考虑分类精度的同时兼顾基分类器差异性,利用蚁群优化算法的寻优能力,选出分类精度高、个体差异性大的基分类器来构建集成分类模型。最后在标准仿真数据集上对构建的集成分类模型进行仿真,结果表明该方法与传统集成方法相比在准确率和稳定性方面均有显著提高。最后,给出现阶段概念漂移数据流分仍面临的挑战,并针对这些问题简单论述概念漂移数据流分类未来的发展趋势。