基于多重选择机制的概念漂移数据流挖掘算法研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户：renalee9

【摘要】

：

近年来,随着数据挖掘技术的逐步成熟,它在各行业中的应用也越发广泛,尤其是银行业、零售业、交通运输行业、互联网行业等领域,数据挖掘技术已经成为了重点支柱性技术。数据挖

【作者】

：

叶爱玲

【机构】

：

安徽大学

【出处】

：

安徽大学

【发表日期】

：

2010年期

【关键词】

：

数据流挖掘多重选择 CVFDT mCVFDT

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,随着数据挖掘技术的逐步成熟,它在各行业中的应用也越发广泛,尤其是银行业、零售业、交通运输行业、互联网行业等领域,数据挖掘技术已经成为了重点支柱性技术。数据挖掘技术带来的技术革命,越来越被人们所关注。研究者们围绕数据挖掘技术展开了多角度,深层次的研究,使得数据挖掘在短短十几年中不断成熟,已经形成了多种数据挖掘系统,很多大型数据库中也已经融合了数据挖掘功能。随着数据挖掘技术的应用领域不断拓展,人们发现了很多新型的数据形式,如Web文本挖掘、多媒体挖掘、图像挖掘、数据流挖掘等。其中,随着互联网的不断深入,越来越多的数据都需要能够获得及时地、在线地进行处理,因此,数据流挖掘技术应运而生。但是,由于数据流本身具有无限性、时变性、高速性等特点,使得对数据流的挖掘比传统的静态数据挖掘要难。数据流性要求算法必须对在一次扫描的同时就能够获得知识,因为,数据流是无限到达,对旧的数据再次取出扫描的成本开销非常大；数据流的时变性又常常伴随着概念漂移问题,因此,单一的分类或聚类算法无法满足精度的要求；数据流的高速性对算法的运行效率是实时性提出了巨大的挑战。目前国际上对数据流的挖掘主要方法有分类和聚类。其中分类方法应用比较广泛。数据流分类挖掘主要有两种思想,一类是利用集成思想,将多个基础分类器集成为分类器系综的形式,再根据对训练数据集的分类预测动态地采用不同的分类器进行分类；另一类是引入信息增益的决策树算法,主要的算法有VFDT和CVFDT。VFDT算法是决策树在数据流挖掘领域的一次重大的改进,它使得数据流挖掘算法更加简洁,也让数据流的在线分析变得更加方便,但是VFDT算法没有考虑到概念漂移问题。概念漂移是数据流分类挖掘中的一个难点,它是伴随着数据流的时变性而产生的。CVFDT就是针对这一问题的VFDT改进算法。本文重点研究了数据流分类挖掘中存在的概念漂移问题,并在CVFDT算法的基础上进行改进,提出一种多重选择决策树算法mCVFDT。该算法将多重属性的选择机制加入到节点结构中来,克服了CVFDT无法自动检测概念漂移的缺陷,同时避免了对决策树的重复遍历,提高了算法的分类精度和效率。实验结果证明该算法随着样本数目的增加在分类精度上比CVFDT算法有更好的表现。

其他文献

带时间约束条件的弧路径问题研究

带时间约束条件的弧路径问题属于带容量限制弧路径优化问题（CARP）的一个扩展，在CARP的基础上对某些关键路径做出了时间限制，这种扩展有着实际的应用意义，比如在某些城市主干道中只

学位

智能机器人路径优化程序设计遗传算法

基于ALGTP的人脸识别研究

人脸识别技术在电子商务、日常生活等领域得到非常广泛的应用,也是几十年来模式识别和计算机视觉中的研究热点之一。但是在实际应用中,人脸图像是在不受控环境下获取的,而且

学位

人脸识别ALGTP光照归一化SIFT局部二值模式

NAT内网连通IPv6的设计与实现

随着Internet的迅速发展,很多问题已经出现,比如说IPv4地址的短缺,严重阻碍了IP网络的发展,成为了这些问题中急切需要解决的一个问题。为了解决这一问题,出现了NAT服务和IPv6

学位

IPv6NAT过渡技术地址协议翻译

数据挖掘在电力调度自动化系统中的应用

电力调度自动化系统是在线为调度机构生产运行人员提供电力系统运行信息、分析决策和控制的综合系统。目前调度自动化系统的数据分析系统一直是弱项,大量数据没有得到充分利用。本文在充分分析了数据挖掘的理论和关联规则挖掘算法,在研究了传统了时态关联规则和周期性关联规则挖掘的基础之上,结合蚁群算法改进了原有的周期性挖掘算法,使之在运算速度上有了很大提高,并将之应用到了电力调度自动化系统的数据分析子系统中,设计完

学位

数据挖掘电力调度自动化系统时态关联规则周期性关联规则蚁群算法

基于视频的烟雾实时监测方法研究

在火灾安全领域,为了使群众的利益远离火灾威胁,现在已经出现了很多火灾检测手段。目前,市场主流的火灾检测产品是基于传感器式的,在私人住宅、大型商场、工厂车间等场所中,

学位

烟雾颜色纹理LBPSVM块背景更新模型YIQ运动实时性准确率

连续时间分层强化学习算法

分层强化学习,如Option、MAXQ等,通过引入抽象机制来解决大规模系统的“维数灾”问题,并具有加速策略学习的功能。Option算法是运用比较广泛的一种分层强化学习算法,它通过引

学位

半Markov决策过程(SMDP)多Agent系统性能势Q学习分层强化学习(HRL)Option

基于节点服务能力的自适应P2P模型研究

对等网络P2P(Peer-to-Peer)是当前流行于计算机网络技术研究领域的一种新兴网络模型。具有搜索效率高、可扩展性好等优点,有效地解决了C/S模式单点故障的问题。因此,P2P的各

学位

对等网络服务能力自适应异构性超级节点

基于密度的样本裁剪算法的改进及在kNN中的应用研究

随着信息技术的飞速发展和迅速普及,人们可以方便快捷地获得大量的信息。然而,在浩瀚的信息海洋里,如何快速准确地找到所需要的信息已经成为人们不得不面对的现实问题。因此,

学位

文本分类kNN快速分类样本裁剪样本补充

DNA计算基本操作研究

DNA计算已经成为了研究新型计算机的一个热点。DNA计算是一种根据生物分子结构,借助分子生物技术进行计算的新方法,开创了以生化反应作为计算工具的先例。因DNA计算具有巨大

学位

DNA计算基本操作汉密尔顿路径问题图的最小顶点覆盖问题

基于SVG组件式的LBS系统的研究与设计

随着3G服务进入高速发展的时期，具有空间特性的位置信息越来越多地被人们所利用，LBS（Location Based Services，基于位置服务）将成为受欢迎的3G服务之一。LBS系统的移动性、捆绑性

学位

基于多重选择机制的概念漂移数据流挖掘算法研究

与本文相关的学术论文