数据流挖掘分类方法关键技术研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:wang605631496
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术尤其是网络技术的快速发展,人们收集、存储和传输数据的能力不断提高,导致数据出现了爆炸性增长。与此形成鲜明对比的是,对人们决策有价值的知识却非常匮乏。但是如何从海量数据中获取有价值的知识以指导人们得决策,是当前数据分析领域所面临的主要的热点和难点问题。知识发现与数据挖掘正是在这一背景下诞生的一门新学科。数据流挖掘作为从连续不断的数据流中挖掘有用信息的技术,近年来正成为数据挖掘领域的研究热点。由于数据流的快速到达和数据规模巨大等原因,传统数据挖掘技术难以满足其要求,也面临着一些新的挑战。分类技术是数据挖掘中一个非常重要的研究领域,也是数据挖掘领域商业应用最成功的技术之一。数据流模型自身的特点给数据流环境下的分类技术带来了新的挑战,本文的研究工作聚焦于数据流分类技术。从提高分类速度、提高分类精度和处理概念漂移三个方面着手,提出了一系列的高效算法。针对数据流挖掘中连续属性的处理问题,我们在VFDT的基础上提出了基于排序二叉树的分类算法VFDTb,通过改进VFDTc的信息增益函数计算方式,该算法有效地减少了连续属性最佳划分节点选取的时间开销,从而在保持决策树大小和分类精度不变的基础上提高了分类速度。实验结果显示:相比VFDT,VFDTb的分类速度平均提高25%。线索化二叉排序树是一种高效的动态插入排序结构,基于该结构,在VFDT和VFDTc的基础上,我们提出了一种分类新的分类算法VFDTt,理论分析表明该算法具有更低的时间复杂度:(1)相比VFDT,VFDTt的样本插入时间复杂度由O(n~2)降低到O(nlogn)。当新样本到达时,VFDTc需要更新O(logn)个属性树结点,而VFDTt只需要更新相应的一个结点即可;(2)改进了VFDTc中连续属性最佳划分节点选取的计算方法,使其时间复杂度由O(nlogn)降低到O(n);(3)根据Fayyad等的结论,相比VFDTc,VFDTt只需从更少的备选划分节点中选取最佳结点,备选划分节点数由O(n)降低到O(logn)。模糊决策树是决策树理论和模糊理论的有效结合,它既具有决策树分类精度高、计算量小和生成模型容易理解的优点,也具有模糊理论在处理不确定信息方面的优点。本文通过对模糊决策树研究领域的分析,指出了模糊决策树的优点和可能存在的问题,并分别从属性选择标准、模糊决策树构造及停止标准三个方面对相关研究工作分别进行了深入的研究与探讨。在此基础上,提出了数据流挖掘环境下的增量模糊决策树算法IFVFDT,通过和VFDTt(或VFDTb)的有效结合,该算法利用平滑离散化方法处理连续属性中的噪声数据问题,在保持分类速度的同时提高了分类精度。实验结果显示:IFVFDT比VFDT平均执行时间减少16.66%,IFVFDT比VFDTt平均执行时间减少8.87%;在10%噪声数据情况下,VFDT的分类错误率逼近于12.5%,而IFVFDT的分类错误率逼近于8%。由于概念漂移的存在往往导致分类模型精度的下降,概念漂移问题也成为数据流挖掘中需要解决的最重要问题之一。Hulten等的CVFDT利用备选子树的方法,有效地处理了概念漂移问题。在CVFDT的基础上,我们提出了基于扩展哈希表的概念漂移处理算法HashCVFDT。该算法实现了概念漂移处理所需要的样本高效删除。通过哈希表和链表的有效结合,不仅保持了哈希表所具有的插入和查找快速的优点,而且使扩展哈希表的高效有序输出。该算法在样本插入与删除、划分节点的选取方面都具有很好的效率。实验结果表明,该算法对概念漂移问题的处理具有很好的扩展性和稳定性。
其他文献
目的:观察大剂量去甲长春花碱(NVB)联合顺铂(DDP)治疗非小细胞肺癌(NSCLC)近期临床疗效及毒副作用,方法:治疗NSCLC38例均有病理学或细胞学明确诊断,采用NVB30mg/m^2,第1.8天,DDP90mg/m^2化疗,2个周期评价疗效,结果部分缓解(PR)17例,稳定(S)16例,进展(P)5例
目的:探讨氢溴酸樟柳碱联合樟柳碱片序贯治疗急性脑梗死患者的效果。方法:选取急性脑梗死患者84例为研究对象,依据随机数字表法分为对照组和观察组,每组42例。两组均予常规治
本院自1978年~1998年共行胃手术4060例,其中全胃切除288例,先后运用9种不同形式的消化道重建,现介绍如下。1临床资料全组288例,男172例,女116例。年龄27~77岁,平均54岁,其中45~65岁204例。11病变部位M区112例,...
目的:观察阿托伐他汀联合瑞格列奈治疗糖尿病肾病的临床效果。方法:选取80例糖尿病肾病患者为研究对象,按随机数字表法分为对照组和研究组,每组40例。对照组接受瑞格列奈联合
近年来,随着互联网技术的持续创新并广泛渗透到各个产业,产业融合进程不断加速。金融和互联网这两大热门领域相互碰撞,一种新兴的金融模式——互联网金融发展得如火如荼。自2
目的:观察中西医结合护理在老年慢性心力衰竭合并便秘患者中的应用效果。方法:选取100例老年慢性心力衰竭合并便秘患者作为研究对象,根据随机数字表法分为观察组和对照组各50
通过查阅大量文献资料,对运动员在社会中所扮演的角色进行分析,从而对运动员进行角色定位,旨在对运动员明智地把握商业利益与运动生涯的平衡点有所启发,使运动员能够扮演好自
黄绍光,1962年毕业于上海第二医学院,长期从事呼吸系统疾病的诊断和治疗。1983年~1985年考取世界卫生组织(WHO)奖学金,在加拿大麦吉尔大学和维克多利亚皇家医院进修呼吸生理及功能测定。1989年任上海第
目的:观察哌拉西林舒巴坦联合左氧氟沙星治疗老年肺炎患者的效果。方法:选取120例老年肺炎患者为研究对象,根据随机数字表法分为对照组和观察组各60例。对照组采用哌拉西林舒
目的:分析应用六味地黄丸加味方预防及治疗原发性肾病综合征患者激素副作用的临床效果。方法:将76例患者按随机数字表法分为治疗组及对照组各38例。其中对照组接受标准激素治