论文部分内容阅读
随着信息技术尤其是网络技术的快速发展,人们收集、存储和传输数据的能力不断提高,导致数据出现了爆炸性增长。与此形成鲜明对比的是,对人们决策有价值的知识却非常匮乏。但是如何从海量数据中获取有价值的知识以指导人们得决策,是当前数据分析领域所面临的主要的热点和难点问题。知识发现与数据挖掘正是在这一背景下诞生的一门新学科。数据流挖掘作为从连续不断的数据流中挖掘有用信息的技术,近年来正成为数据挖掘领域的研究热点。由于数据流的快速到达和数据规模巨大等原因,传统数据挖掘技术难以满足其要求,也面临着一些新的挑战。分类技术是数据挖掘中一个非常重要的研究领域,也是数据挖掘领域商业应用最成功的技术之一。数据流模型自身的特点给数据流环境下的分类技术带来了新的挑战,本文的研究工作聚焦于数据流分类技术。从提高分类速度、提高分类精度和处理概念漂移三个方面着手,提出了一系列的高效算法。针对数据流挖掘中连续属性的处理问题,我们在VFDT的基础上提出了基于排序二叉树的分类算法VFDTb,通过改进VFDTc的信息增益函数计算方式,该算法有效地减少了连续属性最佳划分节点选取的时间开销,从而在保持决策树大小和分类精度不变的基础上提高了分类速度。实验结果显示:相比VFDT,VFDTb的分类速度平均提高25%。线索化二叉排序树是一种高效的动态插入排序结构,基于该结构,在VFDT和VFDTc的基础上,我们提出了一种分类新的分类算法VFDTt,理论分析表明该算法具有更低的时间复杂度:(1)相比VFDT,VFDTt的样本插入时间复杂度由O(n~2)降低到O(nlogn)。当新样本到达时,VFDTc需要更新O(logn)个属性树结点,而VFDTt只需要更新相应的一个结点即可;(2)改进了VFDTc中连续属性最佳划分节点选取的计算方法,使其时间复杂度由O(nlogn)降低到O(n);(3)根据Fayyad等的结论,相比VFDTc,VFDTt只需从更少的备选划分节点中选取最佳结点,备选划分节点数由O(n)降低到O(logn)。模糊决策树是决策树理论和模糊理论的有效结合,它既具有决策树分类精度高、计算量小和生成模型容易理解的优点,也具有模糊理论在处理不确定信息方面的优点。本文通过对模糊决策树研究领域的分析,指出了模糊决策树的优点和可能存在的问题,并分别从属性选择标准、模糊决策树构造及停止标准三个方面对相关研究工作分别进行了深入的研究与探讨。在此基础上,提出了数据流挖掘环境下的增量模糊决策树算法IFVFDT,通过和VFDTt(或VFDTb)的有效结合,该算法利用平滑离散化方法处理连续属性中的噪声数据问题,在保持分类速度的同时提高了分类精度。实验结果显示:IFVFDT比VFDT平均执行时间减少16.66%,IFVFDT比VFDTt平均执行时间减少8.87%;在10%噪声数据情况下,VFDT的分类错误率逼近于12.5%,而IFVFDT的分类错误率逼近于8%。由于概念漂移的存在往往导致分类模型精度的下降,概念漂移问题也成为数据流挖掘中需要解决的最重要问题之一。Hulten等的CVFDT利用备选子树的方法,有效地处理了概念漂移问题。在CVFDT的基础上,我们提出了基于扩展哈希表的概念漂移处理算法HashCVFDT。该算法实现了概念漂移处理所需要的样本高效删除。通过哈希表和链表的有效结合,不仅保持了哈希表所具有的插入和查找快速的优点,而且使扩展哈希表的高效有序输出。该算法在样本插入与删除、划分节点的选取方面都具有很好的效率。实验结果表明,该算法对概念漂移问题的处理具有很好的扩展性和稳定性。