论文部分内容阅读
随着互联网的快速发展,面对实时到达、连续、无限的流数据,传统的数据挖掘算法已难以满足挖掘需求,流数据挖掘算法成为了热点研究课题。本文把面向流数据的分类挖掘算法作为重点研究对象,以提高流数据分类挖掘效率和性能为目标,不仅改进了已有的分类算法,而且将改进算法部署到大数据处理平台Spark上并行化实现。为了提高流数据分类挖掘效率,将概念自适应快速决策树算法CVFDT进行了属性间的并行化,并借助Spark的流计算机制,设计了CVFDT基于Spark的并行化实现方案。在Spark平台上实施该方案的结果表明:在Spark集群环境下,CVFDT算法的分类效率相对于单机环境有显著提高,改进后的并行化CVFDT算法对大规模流数据处理有良好的适应能力。为了提高CVFDT算法在处理含有连续属性的平稳流数据方面的能力,对CVFDT算法做了两方面的改进:使用多元Delta方法代替Hoeffding边界计算和设计了更为高效准确的连续属性分割与权衡重计算方法;从而形成了面向连续属性的CVFDT算法,命名为C-CVFDT。并且进一步设计了C-CVFDT基于Spark的并行化实现方案。基于该方案的算法实现和测试实验结果表明,C-CVFDT算法对包含连续属性的流数据样本有更好的预测精度和分类效率。针对CVFDT算法不能有效处理不稳定流数据的问题,利用集成分类器思想,集成CVFDT算法基础分类器和朴素贝叶斯算法基础分类器,设计了一种面向不稳定流数据的概念自适应的集成分类算法ECA(Ensemble Classification Algorithm)。其核心思想是:使用CVFDT分类方法和朴素贝叶斯分类方法进行学习,形成集成分类器,在出现概念漂移使分类器准确率下降到设定的临界值时,使用新的基分类器来优化集成分类器以适应新的流数据。实验结果表明ECA算法适应概念漂移的能力较强。本文研究的流分类算法及其基于Spark的并行化实现方案能适应海量流数据的无限性、快速性和实时性,研究内容较为先进,且研究成果具有一定的理论价值和较好的实用性。