适于概念漂移的数据流在线分类算法研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:ljh163com
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类技术是数据挖掘的重要组成部分,有着广泛的应用领域,并且已经有大量成熟的研究成果问世。然而数据流作为一种新型的数据模型,具有连续、单遍扫描、快速变化和海量无穷等特点,同时数据流中数据所隐含的知识或者概念会随着时间的变化而改变,即发生概念漂移,传统的数据挖掘分类算法难以及时有效地对其进行处理。如何实时、快速地对数据流进行分类,并且有效地发现和适应概念漂移,给数据挖掘研究领域带来了巨大的挑战,面向数据流环境的分类处理已经成为数据挖掘研究的热点问题之一。基于此,本文针对具有概念漂移的数据流分类问题展开了以下研究工作:首先熟悉数据挖掘领域的相关知识,了解数据流产生的背景及特点,之后研读并掌握已有数据流分类算法的核心思想。其次,针对概念漂移的数据流分类问题,设计了一种基于实例加权的数据流分类算法(EWBC).该算法引入boosting思想,根据各个基分类器的分类结果动态调整训练数据的权值,使得在发生概念漂移时,新建立的分类器能够更加快速准确地收敛于新概念;同时,在删除旧的不再适应新概念的基分类器时,联合考虑基分类器的分类准确率和基分类器之间的差异度。实验表明,与WEC算法相比,EWBC算法的分类准确性有显著提高。再次,针对概念重复出现并具有周期性概念漂移的数据流分类问题,提出了一种基于历史概念的数据流分类算法(HCBC)。算法保存所有已出现的概念及其对应的分类器,当历史概念重新出现时,首先根据历史概念的信息,选择性的挑取适应当前概念的基分类器组成集成分类器,从而提高了分类速度。如果分类没有达到准确率阈值,再训练新的分类器以更新集成分类器。最后通过大量实验证明了所提出算法的高效性。
其他文献
不可见数字水印已经作为防止非法拷贝和传播受版权保护的媒体的一种重要手段.该论文分析了水印算法的基本框架,总结了现有的水印算法.基于水印通信的思想,建立水印通信模型.
该论文的内容可以划分为两个部分,在第一部分中,该文首先介绍了与研究工作相关的一些背景知识.包括Agent和多Agent系统、Web服务、Jini技术.在此基础上,我们将Jini框架中的"
该文主要围绕动态数据的安全保护,在相关的密码机制和体制的基础上,尝试将其与该文给出的网络数据安全用户代理SecureUA的设计和应用相结合,从而为满足各不同层次的网络安全
随着Internet的深入发展和普及,网络中可利用的应用程序和服务不断增多,但是这些程序和服务大部分是彼此孤立的,彼此之间的交流面临重大的困难。Web服务的出现和广泛使用为应
随着网络技术的不断发展,Web应用系统发挥着越来越重要的作用,它需要为用户提供持续性的服务,长时间的运行过程中会出现软件老化现象。软件老化会严重影响Web应用系统的性能,
该文结合MPEG4标准所定义的解码过程,提出了一种基于形状自适应小波变换的MPEG-4纹理编码框架,它可以对任意形状的物体进行编码,主要包括形状自适应小波变换,小波变换系数的
语义WEB(Semantic Web)向我们展示了下一代WEB的可能的架构.在这个架构中,机器将可以理解WEB中的信息.我们的研究工作的目标是在拥有领域Ontology的情况下,在普通的HTML格式
电力,是国家宝贵的二次能源.加强电力网线损管理,降低电力网的电能损耗,提高电能利用率,是供电企业提高经营绩效的重要手段,是一项长期的基本国策.基于网络的分布式供电企业
冲击地压是煤炭开采过程中的一种严重煤岩动力失稳灾害,监测冲击地压的一种重要手段就是通过微震监测技术确定震源的位置,而时差估计是基于时间差的微震震源定位算法的基础,直
电子安全支付是电子商务中的最为核心和复杂的环节,涉及到用户、商家与银行等金融部门的交互和接口,其安全性是整个电子商务安全中很重要的一个方面.近年来,电子安全支付管理