论文部分内容阅读
现代数据采集和存储技术的快速发展使得各领域的数据得以海量积累。数据挖掘作为近些年崛起的一门新技术,将传统的数据分析方法与复杂的数据处理算法相结合,有效地帮助了各领域从海量数据中快速、高效地挖掘可用知识,因而被广泛地应用在各领域中。Hadoop作为云计算技术的开源代表,实现了MapReduce编程模型,构建出一个可靠、稳定和可扩展的分布式并行计算平台,拥有对超大数据集的处理能力。因此,利用Hadoop框架技术,研究传统数据挖掘算法的并行改进,对海量数据挖掘技术的发展具有十分重要的意义。本文在研究数据挖掘理论和云计算技术的基础上,选取了关联分析和模糊聚类分析为研究对象,主要做了如下工作:(1)收集和阅读大量文献资料,了解课题背景和国内外研究现状,阐明云计算下数据挖掘研究的意义。(2)深入学习数据挖掘理论和Hadoop云计算技术。了解数据挖掘含义和基本挖掘过程,分析Hadoop的MapReduce编程模型和HDFS等核心运行机制,结合并行计算相关知识,总结Hadoop平台优势。(3)针对关联分析中,传统的Apriori及其改进的频繁项集生成算法不适应海量数据挖掘的缺陷,提出了基于Hadoop的频繁项集生成算法——MRARM算法,并且结合实际应用对MRARM算法的数据处理流程进行阐述。(4)针对模糊聚类分析中,FCM算法的计算复杂度较高的问题,提出了基于Hadoop的模糊聚类并行改进算法——MRFCM算法。结合江苏省地面气候数据集,以2012年月均降水量为要素,利用MRFCM算法进行了降水分区的应用展示。在Hadoop平台下,文章根据单机对照、集群规模和数据规模三个参数设计MRARM和MRFCM算法的实验方案,并进行了相应的实验和结果评估。实验结果显示,MRARM和MRFCM算法在实现传统数据挖掘算法目标的同时,具有较好的并行处理优势和扩展性,促进了云计算技术在海量数据挖掘领域的应用和发展。