论文部分内容阅读
随着计算机、通讯、网络和Web技术的快速发展及普及,数据呈爆炸式的增长,在社会各领域积累的数据量很容易就达到GB和TB级,乃至PB级。且80%以上的数据是非结构化的,难于直接使用,步入到大数据时代更加明显。要想从海量数据中快速地高效地挖掘出潜在的、有价值的知识,可借助目前已日趋成熟的云计算技术来完成。云计算的出现解决了面对海量异构数据时传统数据挖掘算法效率低下的局面,Apache基金会其中的一个顶级项目Hadoop就是开源的云计算技术,以MapReduce和HDFS为关键技术对海量数据进行挖掘。基于此,本文将Hadoop平台与传统的数据挖掘关联规则Apriori算法进行整合,验证在“云”和“非云”的环境下数据挖掘算法效率的变化。本文首先阐述了Hadoop的系统架构,并对Hadoop开源框架的核心架构MapReduce和HDFS运行机制进行深入的探讨与研究,设计出基于Hadoop系统与传统数据挖掘系统相结合的云挖掘模型。其次,介绍云计算平台的搭建与部署及常用的Shell命令。然后,深入研究传统关联规则Apriori算法,并将该算法移植到Hadoop平台验证其效率。为了更好发挥云平台的作用,引入了矩阵概念,设计出新的改良算法Apriori_MMR。最后,通过真实数据在Hadoop平台上验证算法的正确性、可行性及高效性,通过实验结果对比分析可知,改良后的Apriori_MMR算法性能更优。总之,云计算为数据挖掘算法的改进带来了新的思维模式,云挖掘也将会成为未来数据挖掘的研究趋势。本文把传统的数据挖掘算法与云计算相结合,为数据挖掘其它算法的改进提供了一定的参考价值。同时,我也相信在不久的将来会有更多的算法被移植到Hadoop云平台上来完成。