论文部分内容阅读
自1969年互联网诞生到2011年互联网被广泛应用到社会的各个领域,流经互联网的数据量至少膨胀了200亿倍,并且这些数据每天都会以更快、更大规模的趋势增加。为了将每天产生的新数据纳入到新的学习系统,需要利用增量学习。而如何快速、高效地挖掘蕴含在海量数据中有价值、易理解的知识成为增量式数据挖掘领域面临的新的挑战。近年来,云计算技术的出现为海量数据挖掘技术的发展带来了新的机遇。一方面云计算能够集成广域网上的计算资源,为数据挖掘提供物理基础,另一方面,并行计算技术是云计算的核心技术,借助云计算特有的分布式编程模式MapReduce,程序可以自动地分布到一个由普通机器组成的超大集群上并发执行,初步实现了自动并行执行机制。此外,作为Apache软件基金会组织下的一个极具特色的开源项目,Hadoop可以方便、快速的实现计算机集群。Hadoop的分布式文件系统(HDFS)能将超大规模的数据进行分布式存储,而其自带的MapReduce编程框架可以在HDFS基础上实现快速的并行化计算。因此,面对每天产生的海量的增量数据,设计基于开源云计算环境Hadoop的增量分类算法具有十分重要的意义。要实现基于Hadoop云计算平台的增量学习任务,一个关键的问题就是如何将传统的增量学习算法并行化。本文结合传统增量学习算法自身的特点,在深入分析MapReduce框架机制之后,将模块化的集成学习思想融入增量学习的过程中,设计了两种基于云计算平台的增量分类算法。两种算法的Map阶段都是完成相应基分类器的训练,不同的Map任务可以高度并行化地执行。Reduce阶段根据学习环境中是否有概念漂移现象的产生,分别采用分类器组合方式与分类器选择方式对Map阶段的基分类器进行集成,从而分别实现了无概念漂移和有概念漂移环境中快速、高效的增量式数据挖掘任务。在KDD2010、Hyperplane等数据集上的仿真实验说明了所提算法的正确性与可行性。