论文部分内容阅读
根据IDC报告的估计,到2011年全球存储的电子数据总量将达到1.8ZB,怎样从这茫茫的数据海洋中得到有用的信息,是数据挖掘领域的一个常见的研究课题。对于大规模数据的处理,传统的数据挖掘算法,在这样数据异构、海量、分布的环境中,往往在计算能力上表现出力不从心,计算速度过慢甚至无法运行,从而成为许多挖掘算法的致命伤。云计算的出现,为大规模数据的分析和存储带来了曙光,利用云计算技术,将传统的数据挖掘算法并行化,凭借云计算平台的存储能力,解决大规模数据的处理需求与计算能力和存储能力之间的矛盾。这样,如何利用开源的云计算平台解决现有挖掘算法的瓶颈问题,重点在于如何实现挖掘算法的并行化。本文在国家自然科学基金资助项目(编号:60773005)的支持下,对海量数据处理和计算进行了深入的研究,以人口数据为范例,进行可行的并行数据挖掘算法研究。首先,本文从现在最受关注的云计算框架Hadoop框架入手,从分布式文件系统HDFS和分布式计算框架MapReduce两个角度进行了介绍,尤其对MapReduce计算框架运行机理进行了阐述,为后来的算法设计提供基础。接着,针对我国人口系统中存在的海量数据挖掘的需求,依托Hadoop的分布式框架,提出了基于MapReduce的并行数据挖掘算法。通过对K-means算法、朴素贝叶斯算法、FP-Growth算法的算法原理、瓶颈问题进行分析,提出了对这三个算法的MapReduce化的方法,并对并行K-means算法进行实现。最后,通过将改进后的K-means算法应用于人口数据中,分析学历与就业之间关系,以期对教育政策和就业政策的制定,起到积极意义。