论文部分内容阅读
随着网络通信、计算机技术的快速发展,股市数据分析、天气预测、卫星监测、网络流量监控等多个领域都产生了数据流。由于数据流具有快速、连续与动态变化的特征,传统的数据挖掘技术对之无效。而且,动态数据流存在概念漂移现象,即隐含在数据中的概念可能会随时间变化而发生改变。因此,如何有效解决数据流中的概念漂移成为一个热门问题。而在实际生活中噪声无处不在,噪声数据的存在影响了数据流的分类效果。因此,如何有效地处理存在噪声的动态数据流是一个有待进一步研究的问题。本文对于数据流分类过程中存在的概念漂移与噪声问题主要做以下研究工作:(1)综述数据挖掘与数据流分类的相关技术,对数据流上的概念漂移、噪声问题作详细阐述和分析。(2)对于数据流分类过程中的概念漂移问题,基于“与当前分类模型不符合的实例可能代表了新概念的变化趋势”这一假设,提出一种处理概念漂移的数据流分类算法EWDSCA(Examples of weighted for data streams classification algorithm)。该方法运用实例加权思想,提高可能代表新概念实例在基分类器构建中的影响力,使分类模型能够更加适应新的概念。同时,引入动态权值调整因子来提高算法适应能力。研究表明,与weighted bagging相比,EWDSCA运行效率更高,分类效果更好。(3)在现实世界中,数据流大多包含噪声数据,噪声问题的存在大大影响了算法的分类效果。为了解决这个问题,设计出一种基于密度聚类算法的数据流分类算法FDNDCA(Fast-DBSCAN for noise data streams classification algorithm)。该算法采用快速聚类算法FDBSCAN来过滤噪声,结合实例加权思想,以UFFT为基分类器构建加权集成模型,并引入μ检验方法来检测概念漂移。研究表明,FDNDCA算法在处理含噪动态数据流方面和已有的分类算法相比,分类性能更具优势。