论文部分内容阅读
随着互联网大数据时代的到来,海量数据的处理成为诸多领域亟待解决的技术瓶颈。而以MapReduce为代表的一系列云计算技术,为这类问题提供了优秀的解决方案。越来越多的互联网应用都选择与云计算技术结合,以提升自身服务的可扩展性和处理能力,来应对海量数据带来的压力和挑战。本文的主要研究内容是在详细分析多维数据特点的基础上,基于MapReduce分布式计算模型和Hadoop分布式架构,提出了并行构造多维数据的方法,同时针对多维数据的的典型应用,提出并实现了一种高效的并行多维关联规则挖掘算法。本文首先介绍了多维数据的基本概念、形式化描述和相关应用,以及关联规则的定义、分类和挖掘过程,并对多维关联规则挖掘进行了详细的阐述。然后,在分析MapReduce计算模型的原理和特点的基础上,提出了基于MapReduce并行构造多维数据的方法;通过分析各经典关联规则挖掘算法的特点和局限性,提出了基于Apriori的并行多维关联规则挖掘算法。之后,通过模拟实验对算法的性能进行评估,并对MapReduce模型的数据流进行调优。实验结果表明,与单机执行的方式相比,并行构造多维数据方法的效率更高,具有更好的稳定性;并行多维关联规则挖掘方法在提高效率的同时,还减少了对数据文件的扫描次数,大大降低了系统的I/O负荷。