论文部分内容阅读
聚类分析算法是数据挖掘领域的重要研究方向,在工业、商业和科研等领域越来越起到高效提取重要数据信息的作用。随着各领域信息化进程的快速发展,这些领域产生的数据量以爆发式的增长,导致在传统的单机聚类分析算法很难应对如此大规模的数据量。因此将传统聚类算法并行化,利用分布式平台的强大计算能力,来弥补单机算法在性能上的不足。Hadoop作为近几年来流行起来的大规模数据处理分布式计算平台,由于其具有开源性和易扩展性等诸多优点,被越来越多的企事业单位采用,作为分布式计算平台的解决方案,来应对呈指数级增长的数据膨胀的挑战。因此本文研究如何将传统的聚类算法在Hadoop平台上进行并行化实现。CLARA算法作为一种聚类算法,它将统计学中的抽样理论应用到聚类中心点的选择当中。它的特点是能够处理大规模数据并且具有较高的执行效率。算法在执行过程中有很多重复的操作执行,在一定程度上还是影响了算法的执行效率。为了能够解决这个问题,本文提出了将CLARA算法进行并行化实现的想法。首先在研读和分析过往单机聚类算法的原理和性能的基础上,具体分析了 CLARA算法的结构特点,针对算法在执行过程中存在复杂操作的问题,从而提出利用统计学中平均值法近似求解的理论,来进一步简化算法,并阐述了改进的理论基础和思路,以及设计改进后算法的执行流程。同时对改进后的算法进行了实验验证,证明了改进算法的有效性。然后结合MapReduce计算框架的技术特点,提出将原单机上聚类算法进行MapReduce并行化的总体思路和分类。具体对CLARA聚类算法进行深入分析,剖析算法的结构特点和执行过程,分析算法可以实现并行化的可能性和可行性。设计CLARA算法并行化的具体实现步骤,同时对单机上改进后的CLARA算法也进行了并行化设计。本文最后,搭建了一个Hadoop集群来对提出的改进算法的性能进行试验验证,并对实验结果进行具体的分析。通过分析,改进后的算法在性能上有不错的提高,证明并行化方法的设计和进一步的改进方法是有效的。