论文部分内容阅读
近年来,随着数据挖掘技术的逐步成熟,它在各行业中的应用也越发广泛,尤其是银行业、零售业、交通运输行业、互联网行业等领域,数据挖掘技术已经成为了重点支柱性技术。数据挖掘技术带来的技术革命,越来越被人们所关注。研究者们围绕数据挖掘技术展开了多角度,深层次的研究,使得数据挖掘在短短十几年中不断成熟,已经形成了多种数据挖掘系统,很多大型数据库中也已经融合了数据挖掘功能。随着数据挖掘技术的应用领域不断拓展,人们发现了很多新型的数据形式,如Web文本挖掘、多媒体挖掘、图像挖掘、数据流挖掘等。其中,随着互联网的不断深入,越来越多的数据都需要能够获得及时地、在线地进行处理,因此,数据流挖掘技术应运而生。但是,由于数据流本身具有无限性、时变性、高速性等特点,使得对数据流的挖掘比传统的静态数据挖掘要难。数据流性要求算法必须对在一次扫描的同时就能够获得知识,因为,数据流是无限到达,对旧的数据再次取出扫描的成本开销非常大;数据流的时变性又常常伴随着概念漂移问题,因此,单一的分类或聚类算法无法满足精度的要求;数据流的高速性对算法的运行效率是实时性提出了巨大的挑战。目前国际上对数据流的挖掘主要方法有分类和聚类。其中分类方法应用比较广泛。数据流分类挖掘主要有两种思想,一类是利用集成思想,将多个基础分类器集成为分类器系综的形式,再根据对训练数据集的分类预测动态地采用不同的分类器进行分类;另一类是引入信息增益的决策树算法,主要的算法有VFDT和CVFDT。VFDT算法是决策树在数据流挖掘领域的一次重大的改进,它使得数据流挖掘算法更加简洁,也让数据流的在线分析变得更加方便,但是VFDT算法没有考虑到概念漂移问题。概念漂移是数据流分类挖掘中的一个难点,它是伴随着数据流的时变性而产生的。CVFDT就是针对这一问题的VFDT改进算法。本文重点研究了数据流分类挖掘中存在的概念漂移问题,并在CVFDT算法的基础上进行改进,提出一种多重选择决策树算法mCVFDT。该算法将多重属性的选择机制加入到节点结构中来,克服了CVFDT无法自动检测概念漂移的缺陷,同时避免了对决策树的重复遍历,提高了算法的分类精度和效率。实验结果证明该算法随着样本数目的增加在分类精度上比CVFDT算法有更好的表现。