隐含概念漂移的数据流分类研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:cloudwing5237
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的不断进步和计算机网络的迅速发展,众多应用领域如网络安全、股票分析、电子商务、气象监控等产生了大量的数据流,其中蕴含着丰富的有价值的知识亟待挖掘。作为知识发现的主要分支,分类具有重要的应用价值,数据流的分类己成为数据挖掘研究的热点之一。然而,由于数据流的无限性、快速性和持续性等特点,使得传统的挖掘算法难以及时有效地对其进行处理,并且数据流中隐含的许多知识或概念会随着时间或环境的变化而改变,即概念漂移,如何有效地发现和适应概念漂移给数据挖掘领域带来了极大的挑战。本文针对隐含概念漂移的数据流的分类问题开展了以下工作的研究:(1)概述并分析了已有数据流分类算法在概念漂移问题处理方面的优点及不足;(2)针对隐含概念漂移的数据流分类问题,设计了一种基于实例加权方法的数据流分类算法(EWAMDS),根据各基分类器的预测结果调整训练实例的权值,以使构造的模型快速地收敛于新概念;同时,为了提高算法的抗噪性,引入动态权值修改因子。实验表明,这种动态调整机制能有效提高算法的适应性和抗噪性;并且,与weighted bagging相比,EWAMDS的时间开销显著降低、分类正确率显著提高;(3)当发生突变式概念漂移时,旧基分类器以较小的权值参与组合仍会影响集成分类器的适应性。为此,提出一种基于错误率方差的概念漂移检测模型,当检测到概念漂移时丢弃当前模型,并以此为基础设计了MSEBDM算法。实验表明了算法的有效性;(4)基于上述研究,实现了数据流分类EWAMDS系统,实验验证了算法的正确性和有效性。
其他文献
当代是一个信息爆炸的时代,随着Internet的飞速发展,我们每个人每天都被大量的信息包围着,面对着海量的信息,如何有效管理利用这些信息,使其能更好的为我们服务,是一个非常值
面向服务的计算是一个崭新的分布式计算模型, Web服务是数据和信息集成的有效机制。但是随着Internet上Web服务的快速增长,自动、准确地搜索Web服务已经成为Web服务技术中的
仓储管理系统是现代物流行业的重要组成部分。仓储管理系统主要任务是对仓库中的货物、仓储货位等基本信息进行管理,优化仓库存储的效率,实现仓库中货物的出入操作和存储操作。
医学图像的配准与匹配是计算机辅助治疗的一个关键技术。在现有的医学数据库中,存在的海量数据已经无法让医生在诊断时对所有的图像进行浏览分析,计算机的辅助可以帮助医生减
无线传感器网络,又称感知网,是由大量的、廉价的、体积小的、具有通信能力的传感器节点组成的网络。同步技术是无线传感器网络的重要支撑技术,无线传感网络的许多实际应用都
聋人群体在生产和生活中,不可避免地要在聋人之间、聋人和健听人之间建立联系,手语成为聋人群体参与社会生活借助的主要交流手段。由于手语不是社会中主流的信息传播方式,极
压缩感知理论是近几年来很受欢迎的一种信号采集和处理理论。对于稀疏或可压缩信号,该理论可以以远低于奈奎斯特定理的采样率来进行数据采集,并且可以大概率的准确重构出原始
多基因组序列比对是现代生物信息学研究领域非常重要的核心问题。为了能够比对多种近亲物种之间的多条基因组序列,我们迫切需要一种多基因组序列比对工具。当前基因组序列比
随着以博客为代表的网络应用的流行,互联网用户可以更加随意的发布信息和进行交流,互联网上的信息源和信息量变得极大丰富。在这些海量博客数据中,信息的质量或权威程度参差不齐
语义网是当前万维网研究的热点之一,它是人们对于未来智能化互联网络的伟大设想。自语义网的概念在1998年由互联网之父Tim Berners-Lee提出以来,语义网的理论研究,特别是在语