论文部分内容阅读
当今社会正在经历一场重大的时代变革,以互联网行业为代表的各行各业正被铺天盖地的庞大数据所覆盖,尤其是社交网络、电子商务和移动通信将人们带入了一个以“PB”级为单位的数据信息新时代。在这个大规模生产、分享和应用数据的时代里,以“云计算”技术为核心结合了数据挖掘、人工智能等一系列技术的整体方案成为了我们解决大数据难题、发掘数据价值、征服数据海洋的“巨大动力”。Hadoop平台是Apache Software Foundation旗下的一个开源分布式系统。它的软件库是一个允许使用简单的编程模型对集群计算机内的大数据集进行分布式处理的框架,它设计成可以从单一服务器纵向扩展到成千上万的服务器,而其中的每个服务器都提供本地计算及存储。它不依靠硬件来提供高可用性,软件库本身具有能够检测和处理应用层的错误的能力,因此,可以在计算机集群的顶层提供高可用的服务,其中的每个节点都允许失效。近几年来在互联网巨头的带动下,Hadoop逐渐被互联网、金融、银行、教育、政府机关等众多行业所接受、尝试和应用,成为在大数据处理方面呼声最高、应用最广的云计算平台。决策树分类算法和k-means聚类算法是数据挖掘领域中应用最广泛的两种挖掘算法,能够将原始数据中隐含的、未知的、有用的信息和知识提取出来,让人们更好地利用数据所带来的巨大价值。本课题立足于已有的云计算平台,设计了基于Hadoop2.0的数据挖掘算法并行化的方法,通过将串行的挖掘算法移植到Hadoop平台上,以此来解决传统的数据挖掘技术面对海量数据无法进行有效挖掘的难题。本论文首先介绍了研究内容的两大技术背景:云计算和数据挖掘,结合两者提出了基于云计算平台的数据挖掘算法并行化的思想。然后,深入地研究和探讨了云计算平台Hadoop2.0的架构原理和内部实现细节。在此基础上,本论文着重地分析了两大类型的数据挖掘算法:决策树分类算法和k-means聚类算法,并根据它们的优化算法:SPRINT算法和canopy算法,设计了基于Hadoop2.0平台的并行化方案,详细地描述了算法并行化实现的具体步骤。最后,通过实验来进一步验证基于Hadoop2.0平台的数据挖掘算法并行化的性能效果。