论文部分内容阅读
随着计算机技术以及互联网运用高速的扩展到人类社会生产生活的各个方面,数据量呈现出爆发性的增长。如今,大数据集以及超大数据集的存储和处理已成为很多企业面临的新的挑战。而如何能以更加快速、高效、低成本的方式从海量数据中挖掘有价值的、可理解的知识从而帮助企业制定决策成为数据挖掘技术面临的新课题。云计算技术的出现为数据挖掘技术的发展带来了新的机遇。云计算技术通过使存储和计算能力均匀的分布到集群中的多个存储和计算节点上,从而实现了对超大数据集的巨大的存储和计算能力。由于可以使用大量的廉价计算机通过集群来代替价格高昂的服务器,云计算大大的降低了成本。使用云计算技术提供的巨大的存储能力和计算能力,数据挖掘技术进入了基于云计算的数据挖掘时代。HADOOP是一个用于构建云平台的Apache开源项目。使用HADOOP框架有利于我们方便、快速的实现计算机集群。在HADOOP平台上,采用了HDFS(分布式文件系统)来实现超大文件的存储和容错,而使用了MapReduce的编程模式来进行计算。将HADOOP运用到数据挖掘,一个关键的问题就是如何实现将传统的数据挖掘算法实行并行化。对于传统的数据挖掘算法,结合算法自身的特点,我们可以很容易或者需要深入研究才能发现它是否能够并行。对于能够并行实现的算法,结合MapReduce编程模式,我们可以将其移植到HADOOP平台上,高效的、并行的完成数据挖掘任务。本文首先详细的介绍了云计算和HADOOP平台的核心架构以及运行机制。然后结合传统的数据挖掘系统提出了基于HADOOP的数据挖掘平台的技术架构。所以,在深入了解到MapReduce编程模式后,结合决策树算法中的SPRINT算法,我们成功的实现了将SPRINT移植到HADOOP平台。在给出详细的算法后,我们通过实验验证了算法的有效性。