论文部分内容阅读
近年来,云计算的研究,相应地兴起了大数据处理平台的研究,Hadoop的诞生让人们从MPI(Message Passing Interface)转向了MapReduce计算模型的研究。Spark平台通过引入RDD(Resilient Distributed Datasets)模型大大提高了其处理速度,使其在交互式计算和迭代计算方面远胜于Hadoop,擅长迭代计算的优势使得Spark处理平台非常有利于成为大数据的数据挖掘利器。大数据的核心处理之一就是数据挖掘,而处理要求也高,Spark的出现正是迎合了广大企业、学者的需求。聚类算法是数据挖掘中的一个重要部分,而如今Spark平台对聚类算法的支持只有K-means,鉴于该算法只适用于球形数据集,因此在Spark上实现对任意数据集都能够聚类的聚类算法很有必要。聚类算法中CURE算法具有很好的聚类效果,而且适用于任意数据集,但其复杂度较高,因此在Spark上实现对CURE算法的并行化可以提高聚类效率,使得聚类算法能够在大数据处理平台得以丰富起来。目前,智能移动设备引领的移动互联网非常火热,全球各企业无不对其密切关注,抓住移动市场就是抓住了关键的商机,因此非常有必要对移动互联网用户的数据进行挖掘,以便对移动用户提供个性化营销和业务推荐,留住用户为企业带来利益。鉴于目前国内外对Spark平台上的聚类算法实现研究甚少以及前文等原因,本文将在Spark上研究CURE算法的并行化实现及其应用。本文首先对Spark平台做了详细的分析,同时对数据挖掘算法进行了分析和总结。其次,本文将聚类算法中的CURE算法进行了改进,提出了具有分散式代表点选择算法选择代表点的ACURE算法,使得选择的代表点比原有的CURE算法更加的分散,进一步改善了聚类效果。然后在Spark平台上进行了ACURE算法的数据并行和任务并行的并行化实现研究,并比较了两种并行模式的不同,得出了两者不可同时并行化、采取数据并行化更有优势的结论,同时比较了数据并行时,分区对ACURE算法的影响,并且比较了单机处理和Spark并行化处理的性能。然后将基于Spark的ACURE算法应用在移动互联网大数据的数据挖掘中,对移动互联网用户的上网行为的聚类结果和K-means的聚类结果进行了对比,得出了ACURE算法在聚类效果上更符合实际的结论,最后对移动互联网用户数据在时间、兴趣、消费水平等方面进行了深入的挖掘,为个性化推荐提供了丰富的用户内容。