基于集成分类器的数据流分类算法研究

来源 :东北大学 | 被引量 : 6次 | 上传用户:czqmip
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现实生活的很多应用中,数据流这种新型的数据随处可见,例如:网络事务日志、电话呼叫记录、信用卡交易以及传感与监控系统等。相对于传统的静态数据,数据流具有无限性、连续性、快速性和概念漂移等特性,这些特性使得传统分类技术无法直接有效地应用于数据流挖掘。因此,设计单遍扫描、实时、动态更新的分类算法是非常必要的。集成分类器具有易于更新结构、较高的分类准确率和能够快速适应概念漂移等特点,使其成为数据流分类研究的主要方向之一。同时,目前的集成方法也存在没有考虑基分类器间相异度和独立性等问题。基于此,本文针对集成分类模型,展开数据流上的分类算法研究。首先,在介绍数据流分类的基本概念、相关工作及研究背景和意义的基础上,分析集成分类框架的常用方法和模型优势,并详细描述了处理概念漂移的方法和当前国内外研究现状。其次,详细阐述经典集成分类器Accuracy Weighted Ensemble(AWE),并在其基础上提出CVFDT Update Ensemble(CUE)算法。CUE在基分类器的权值分配、算法对数据块的大小敏感性问题和增加基分类器间相异度等方面进行改进。实验表明,该算法的分类准确率高于AWE算法。最后,根据分类器动态选择思想,提出一种基于聚类的分类器动态选择算法Dynamic Classifier Selection with Clustering(DCSC)。其基本思想是:对于待分类的实例采用某种度量,选择与其相近度最高的基分类器进行分类。该算法因为没有繁琐的赋权值机制及每次只选择一个分类器分类,因此具有良好的时间效率。实验验证了DCSC算法的有效性和高效性,并能有效地处理概念漂移。
其他文献
当网络迅速发展的时候,网络蠕虫病毒引起的危害开始显现,网络的发展使得网络蠕虫可以在短短的时间内蔓延整个网络,造成网络瘫痪,使得网络管理面临更大的挑战,网络蠕虫病毒的
XML自出现以来就被作为半结构化数据的典型框架。迄今为止,已经出现了一些与XML数据库相关的查询和存储模型。这些模型都从不同方面涉及到XQuery/XPath中的核心问题——路径
嵌入式Internet技术是进入90年代以来计算机应用领域的一个新的研究热点.它是为解决设备上网问题而提出来的.Internet提供的开放性环境并不能保证接入系统的安全性,这就使得
实验教学是远程教育中的一个难题,学生很难通过网络进行真正的交互式实验。虚拟实验技术和远程教育结合起来的远程虚拟实验系统为解决这个问题提供了一个良好的解决方案。远
随着数字技术和网络技术的迅猛发展,计算机通信技术与传统家用电器相结合产生的智能化信息电器(Information Appliance)开始走向市场,并将逐渐深入到人们的日常生活中。DTV(Dig
该论文主要针对网络安全中内容过滤防火墙的体系结构进行了深入的理论研究,并且结合嗅探型防黄网关系统(Sniffer Gateway Design System for firewall,SGDS)的具体设计要求,
随着企业信息化的发展,一个企业往往有很多种异构信息系统在同时使用,形成一些"信息孤岛",在很大程度上限制了信息系统在企业运作中的作用.例如,在"信息孤岛"下,企业信息数据
随着现代社会计算能力需求的迅猛发展,单台计算机已经不能胜任一些大规模应用问题的解决.这就需要将多种计算资源通过高速网络连接起来,共同解决大型应用问题.集群技术的发展
随着互联网的极大普及和计算机技术、信息管理技术、信息系统的迅猛发展,各行业的数据量激增,在此背景下诞生的KDD(Knowledge Discovery in Databases,知识发现)和DM(Data Mi
随着企业信息化程度的提高,企业可获取信息的种类和结构越来越丰富。从传统的关系型数据库,到XML文档以及分布于Web上的大量半结构化的信息。而传统上的各种应用都是直接建立