论文部分内容阅读
随着信息技术的突飞猛进,特别是计算机硬件性能的不断提高,人们收集、存储、传输的数据量已经达到海量级。从海量数据中提炼出有用信息是一项富有挑战性的任务,也正是数据挖掘这门学科的主要目的。数据挖掘需要依赖高性能的挖掘算法和稳定的软件平台。传统的挖掘算法大部分采用串行设计,考虑的主要是节省内存开销,随着“大数据时代”来临,依赖于单机工作的传统挖掘技术已无法有效处理日渐频繁的挖掘请求和日益增长的数据量。云计算应运而生,作为一种新兴的基于互联网的计算手段,它使得用户可以像使用水电资源一样使用计算和存储资源。将云计算运用到数据挖掘,可以充分利用其分布式的优势处理“大数据”。Apache Hadoop是一款开源软件,实现了包括分布式文件系统HDFS和MapReduce框架在内的云计算软件平台和基础架构,是云计算技术中的重要组成部分,目前已成为工业界和学术界进行云计算应用和研究的标准平台。本文首先分析了Apriori、FP-growth、Eclat等传统关联规则挖掘算法的设计思想、优缺点,然后剖析了Hadoop平台的架构和MapReduce的运行机制。在此基础上,主要完成以下工作:1、分析了Apriori算法在MapReduce框架下的并行化版本,即SPC/DPC算法的设计和优缺点;分析了FP-growth算法在MapReduce框架下的并行化版本,即PFP算法的设计和优缺点。2、提出并实现了Eclat算法在MapReduce框架下的并行化版本,即Peclat,分别有宽度优先与深度优先两种版本。3、提出并实现了纵向表示法混用策略,克服了传统Eclat算法只能使用一种纵向格式的缺陷,并将此策略应用到Peclat算法中。4、提出并实现了剪枝和动态排序,进一步改进了Peclat的搜索效率。5、设计完整的实验证明Peclat算法的高效性和其采用的混用策略与搜索策略的有效性。