基于eEP的数据流分类算法研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:ajimide001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速发展和信息搜集能力的日益提高,近些年产生了一种新型的具有快速、海量、变化等特性的数据,即“数据流”。这些数据流或以静态的形式存储在企业的物理存储器上,或是不被存储而瞬时出现的动态数据。 分类是数据挖掘中的一个重要问题,也是一种重要的数据分析形式,在传统静态数据环境中,数据分类已经有了比较充分的研究,但是面对具有快速、海量、变化及线性访问等特性的数据流,数据分类面临着新的挑战。通过汇总和分析,发现当前在数据流环境中,已经有文献介绍相关的分类算法研究,但是,并没有基于eEP分类的相关研究。而eEP具有良好的区分能力,并且基于eEP的分类算法可以与其他算法相媲美,同时基于eEP的分类方法已经成功地应用于DNA分析、文本自动分类等领域。 鉴于此,本文对数据流环境下,基于eEP的分类算法进行了深入的研究。提出一种基于eEP的数据流分类算法DSCEEP。本文的主要工作是:在总结数据流的特性和分析基于eEP传统分类算法的算法思想的基础上,将基本窗口和滑动窗口的概念与eEP分类算法有机地结合以适应数据流的特性并解决概念漂移的问题;其次在分类器构造的过程中,提出了多分类器的“三层构造模型”,即:eEP的挖掘和加权、基分类器的构建、多分类器的组合;最后,在对未知样本分类的过程中,结合数据流挖掘分析多考虑最近最新数据的特点,对不同的基分类器赋予不同的权值,并提出了多分类器“董事会股权投票”策略,从而提高分类的准确率。 经过实验对比和性能分析可以看出,本文提出的DSCEEP算法能较好地适应数据流的概念漂移,且具有较好的分类准确率,足以与以C4.5为基分类器的集成多分类器算法相媲美。
其他文献
飞行模拟器操纵系统是向飞行员提供了操纵力的操纵负荷仿真系统。操纵系统的硬件和软件接口是飞行模拟器系统的重要组成部分,其性能的好坏直接影响到整个飞行模拟仿真系统的性
入侵检测是信息安全体系结构中的重要一环,其本质是一个对网络数据包、审计日志等大量数据进行数据处理的过程,如何从包含大量冗余信息的数据中自动、准确地提取出具有代表性的
当今时代,信息化特征明显,人们观察物理世界所获得的数据均用计算机信息表示。为了更好的观察和分析人们生活的物理世界,人们采用了多种多样的信息数据收集方法。而如何能够将这
随着计算机和通信技术的发展,Internet在过去的十几年中迅猛发展,随之而来的拥塞问题亦越来越严重,现有的拥塞控制算法远远无法满足未来网络的需要,Internet的继续发展迫切需
交通运输是国民经济的动脉,它对人民生活和社会经济发展起到了极大的作用。各种运输方式都要遇到同一个问题:在有效地的服务客户前提下,怎样去减少总的费用。 本文研究的问题
基于内容的图像检索(CBIR)是目前国内外发展很快的一个研究热点。它的研究对象是使查询者可以实现方便、快速、准确的从图像数据库中,查找特定图像的方法和技术。该项技术的应
在当前信息快速膨胀的时代,人工对文本信息进行分类是一种效率十分低下的工作。文本自动分类技术利用计算机强大的自动处理功能,极大的提高了工作的效率。目前,比较成熟的分类器
随着三维CAD技术的发展,计算机人体仿真和智能化的服装CAD系统是近年来在计算机图形技术领域经常研讨的重要课题。人体在穿着衣物后不仅要考虑其美观,而且要从服装的功效性及舒
经过三十几年的发展,人脸识别技术取得了巨大的进步,在理想的成像条件下,已经取得了显著的成果。但非理想成像条件下(如光照条件不理想,人脸的姿态发生变化等)的人脸识别技术还远
网格是继万维网之后出现的一种新型网络计算平台,支持各种资源的共享和广泛的协同工作,消除因地理位置造成的对计算资源的访问限制。网格的最终目的就是提供给用户与地理位置无