论文部分内容阅读
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先未知的、但又是潜在有用的信息和知识的过程。随着信息技术的高速发展,人们积累的数据量急剧增长,动辄以TB计算,如何从海量的数据中提取有用的信息已经成为必须解决的问题。针对海量数据的挖掘,分布式并行处理和增量式处理是有效的解决方案。云计算是一种新兴的共享基础架构的计算模型,它擅长处理大规模数据和进行大规模计算,它是分布式计算的延伸和拓展,并行和分布是云计算的关键。因此本文结合云计算,以关联规则的增量挖掘为切入点,提出解决海量数据快速挖掘的新思路。本文介绍了数据挖掘的定义、功能、步骤和挑战,重点分析了关联规则挖掘算法;介绍了云计算的概念、特点、形式和关键技术,重点分析了典型的云计算平台Hadoop的分布式文件系统HDFS和并行编程模型MapReduce的实现原理。在此基础上,重点研究了关联规则挖掘中大频繁项目集的并行化挖掘算法,提出了基于云计算的快速关联规则增量挖掘算法C-FUP (Cloud Computing Based FUP);以提高并行化效率为目标,对Hadoop中HDFS的数据集分配方法进行改进,设计了一种能根据集群中异构节点的计算性能进行数据集分配的方法DAMBNP (Dataset Allocation Method Based on Node Performance);并对Hadoop的性能进行分析,针对其对大量小文件的处理能力不足的问题提出了解决思路。为了验证所提出的算法和方法的有效性,本文设计了基于Hadoop的仿真实验,实验结果表明,C-FUP算法能够很好地适用于海量数据的关联规则增量挖掘,并具有良好的可伸缩性和可扩展性;数据集分配方法DAMBNP能有效地提高C-FUP算法在云计算平台上的执行效率。论文对海量数据的快速挖掘做了有益的研究工作。