论文部分内容阅读
随着信息技术的快速发展和信息搜集能力的日益提高,近些年产生了一种新型的具有快速、海量、变化等特性的数据,即“数据流”。这些数据流或以静态的形式存储在企业的物理存储器上,或是不被存储而瞬时出现的动态数据。 分类是数据挖掘中的一个重要问题,也是一种重要的数据分析形式,在传统静态数据环境中,数据分类已经有了比较充分的研究,但是面对具有快速、海量、变化及线性访问等特性的数据流,数据分类面临着新的挑战。通过汇总和分析,发现当前在数据流环境中,已经有文献介绍相关的分类算法研究,但是,并没有基于eEP分类的相关研究。而eEP具有良好的区分能力,并且基于eEP的分类算法可以与其他算法相媲美,同时基于eEP的分类方法已经成功地应用于DNA分析、文本自动分类等领域。 鉴于此,本文对数据流环境下,基于eEP的分类算法进行了深入的研究。提出一种基于eEP的数据流分类算法DSCEEP。本文的主要工作是:在总结数据流的特性和分析基于eEP传统分类算法的算法思想的基础上,将基本窗口和滑动窗口的概念与eEP分类算法有机地结合以适应数据流的特性并解决概念漂移的问题;其次在分类器构造的过程中,提出了多分类器的“三层构造模型”,即:eEP的挖掘和加权、基分类器的构建、多分类器的组合;最后,在对未知样本分类的过程中,结合数据流挖掘分析多考虑最近最新数据的特点,对不同的基分类器赋予不同的权值,并提出了多分类器“董事会股权投票”策略,从而提高分类的准确率。 经过实验对比和性能分析可以看出,本文提出的DSCEEP算法能较好地适应数据流的概念漂移,且具有较好的分类准确率,足以与以C4.5为基分类器的集成多分类器算法相媲美。