数据流挖掘分类方法关键技术研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户：wang605631496

【摘要】

：

随着信息技术尤其是网络技术的快速发展,人们收集、存储和传输数据的能力不断提高,导致数据出现了爆炸性增长。与此形成鲜明对比的是,对人们决策有价值的知识却非常匮乏。但

【作者】

：

王涛

【出处】

：

国防科学技术大学

【发表日期】

：

2007年期

【关键词】

：

数据流分类概念漂移连续属性排序二叉树线索化二叉排序树平滑离散化扩展哈希表

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息技术尤其是网络技术的快速发展,人们收集、存储和传输数据的能力不断提高,导致数据出现了爆炸性增长。与此形成鲜明对比的是,对人们决策有价值的知识却非常匮乏。但是如何从海量数据中获取有价值的知识以指导人们得决策,是当前数据分析领域所面临的主要的热点和难点问题。知识发现与数据挖掘正是在这一背景下诞生的一门新学科。数据流挖掘作为从连续不断的数据流中挖掘有用信息的技术,近年来正成为数据挖掘领域的研究热点。由于数据流的快速到达和数据规模巨大等原因,传统数据挖掘技术难以满足其要求,也面临着一些新的挑战。分类技术是数据挖掘中一个非常重要的研究领域,也是数据挖掘领域商业应用最成功的技术之一。数据流模型自身的特点给数据流环境下的分类技术带来了新的挑战,本文的研究工作聚焦于数据流分类技术。从提高分类速度、提高分类精度和处理概念漂移三个方面着手,提出了一系列的高效算法。针对数据流挖掘中连续属性的处理问题,我们在VFDT的基础上提出了基于排序二叉树的分类算法VFDTb,通过改进VFDTc的信息增益函数计算方式,该算法有效地减少了连续属性最佳划分节点选取的时间开销,从而在保持决策树大小和分类精度不变的基础上提高了分类速度。实验结果显示:相比VFDT,VFDTb的分类速度平均提高25%。线索化二叉排序树是一种高效的动态插入排序结构,基于该结构,在VFDT和VFDTc的基础上,我们提出了一种分类新的分类算法VFDTt,理论分析表明该算法具有更低的时间复杂度:(1)相比VFDT,VFDTt的样本插入时间复杂度由O(n~2)降低到O(nlogn)。当新样本到达时,VFDTc需要更新O(logn)个属性树结点,而VFDTt只需要更新相应的一个结点即可;(2)改进了VFDTc中连续属性最佳划分节点选取的计算方法,使其时间复杂度由O(nlogn)降低到O(n);(3)根据Fayyad等的结论,相比VFDTc,VFDTt只需从更少的备选划分节点中选取最佳结点,备选划分节点数由O(n)降低到O(logn)。模糊决策树是决策树理论和模糊理论的有效结合,它既具有决策树分类精度高、计算量小和生成模型容易理解的优点,也具有模糊理论在处理不确定信息方面的优点。本文通过对模糊决策树研究领域的分析,指出了模糊决策树的优点和可能存在的问题,并分别从属性选择标准、模糊决策树构造及停止标准三个方面对相关研究工作分别进行了深入的研究与探讨。在此基础上,提出了数据流挖掘环境下的增量模糊决策树算法IFVFDT,通过和VFDTt(或VFDTb)的有效结合,该算法利用平滑离散化方法处理连续属性中的噪声数据问题,在保持分类速度的同时提高了分类精度。实验结果显示:IFVFDT比VFDT平均执行时间减少16.66%,IFVFDT比VFDTt平均执行时间减少8.87%;在10%噪声数据情况下,VFDT的分类错误率逼近于12.5%,而IFVFDT的分类错误率逼近于8%。由于概念漂移的存在往往导致分类模型精度的下降,概念漂移问题也成为数据流挖掘中需要解决的最重要问题之一。Hulten等的CVFDT利用备选子树的方法,有效地处理了概念漂移问题。在CVFDT的基础上,我们提出了基于扩展哈希表的概念漂移处理算法HashCVFDT。该算法实现了概念漂移处理所需要的样本高效删除。通过哈希表和链表的有效结合,不仅保持了哈希表所具有的插入和查找快速的优点,而且使扩展哈希表的高效有序输出。该算法在样本插入与删除、划分节点的选取方面都具有很好的效率。实验结果表明,该算法对概念漂移问题的处理具有很好的扩展性和稳定性。

其他文献

大剂量去甲长春花碱联合顺铂治疗非小细胞肺癌近期临床疗效观察

目的：观察大剂量去甲长春花碱（ＮＶＢ）联合顺铂（ＤＤＰ）治疗非小细胞肺癌（ＮＳＣＬＣ）近期临床疗效及毒副作用，方法：治疗ＮＳＣＬＣ３８例均有病理学或细胞学明确诊断，采用ＮＶＢ３０ｍｇ／ｍ＾２，第１．８天，ＤＤＰ９０ｍｇ／ｍ＾２化疗，２个周期评价疗效，结果部分缓解（ＰＲ）１７例，稳定（Ｓ）１６例，进展（Ｐ）５例

期刊

去甲长春花碱顺铂非小细胞肺癌肺癌药物疗法

氢溴酸樟柳碱联合樟柳碱片序贯治疗急性脑梗死的效果

目的:探讨氢溴酸樟柳碱联合樟柳碱片序贯治疗急性脑梗死患者的效果。方法:选取急性脑梗死患者84例为研究对象,依据随机数字表法分为对照组和观察组,每组42例。两组均予常规治

期刊

急性脑梗死氢溴酸樟柳碱序贯治疗

全胃切除后消化道重建方式的探讨

本院自１９７８年～１９９８年共行胃手术４０６０例，其中全胃切除２８８例，先后运用９种不同形式的消化道重建，现介绍如下。１临床资料全组２８８例，男１７２例，女１１６例。年龄２７～７７岁，平均５４岁，其中４５～６５岁２０４例。１１病变部位Ｍ区１１２例，...

期刊

胃切除消化道重建术手术方式

阿托伐他汀联合瑞格列奈治疗糖尿病肾病的效果

目的:观察阿托伐他汀联合瑞格列奈治疗糖尿病肾病的临床效果。方法:选取80例糖尿病肾病患者为研究对象,按随机数字表法分为对照组和研究组,每组40例。对照组接受瑞格列奈联合

期刊

糖尿病肾病瑞格列奈阿托伐他汀

P2P网络借贷法律监管研究

近年来,随着互联网技术的持续创新并广泛渗透到各个产业,产业融合进程不断加速。金融和互联网这两大热门领域相互碰撞,一种新兴的金融模式——互联网金融发展得如火如荼。自2

学位

P2P网络借贷法律风险监管趋势

中西医结合护理在老年慢性心力衰竭合并便秘患者中的应用效果

目的:观察中西医结合护理在老年慢性心力衰竭合并便秘患者中的应用效果。方法:选取100例老年慢性心力衰竭合并便秘患者作为研究对象,根据随机数字表法分为观察组和对照组各50

期刊

便秘老年慢性心力衰竭护理中西医结合生命质量

论运动员的社会角色定位

通过查阅大量文献资料,对运动员在社会中所扮演的角色进行分析,从而对运动员进行角色定位,旨在对运动员明智地把握商业利益与运动生涯的平衡点有所启发,使运动员能够扮演好自

期刊

运动员角色角色定位athletes role role orientation

呼吸机的撤离

黄绍光，１９６２年毕业于上海第二医学院，长期从事呼吸系统疾病的诊断和治疗。１９８３年～１９８５年考取世界卫生组织（ＷＨＯ）奖学金，在加拿大麦吉尔大学和维克多利亚皇家医院进修呼吸生理及功能测定。１９８９年任上海第

期刊

呼吸机撤离机械通气

哌拉西林舒巴坦联合左氧氟沙星治疗老年肺炎患者的效果

目的:观察哌拉西林舒巴坦联合左氧氟沙星治疗老年肺炎患者的效果。方法:选取120例老年肺炎患者为研究对象,根据随机数字表法分为对照组和观察组各60例。对照组采用哌拉西林舒

期刊

哌拉西林舒巴坦左氧氟沙星老年肺炎有效率炎性因子

六味地黄丸加味方对原发性肾病综合征患者足量激素使用阶段激素副作用的防治效果观察

目的:分析应用六味地黄丸加味方预防及治疗原发性肾病综合征患者激素副作用的临床效果。方法:将76例患者按随机数字表法分为治疗组及对照组各38例。其中对照组接受标准激素治

期刊

原发性肾病综合征激素副作用六味地黄丸加味方临床疗效

数据流挖掘分类方法关键技术研究

与本文相关的学术论文