基于Spark平台的CURE算法并行化设计与应用

被引量 : 0次 | 上传用户:jingfei1415
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,云计算的研究,相应地兴起了大数据处理平台的研究,Hadoop的诞生让人们从MPI(Message Passing Interface)转向了MapReduce计算模型的研究。Spark平台通过引入RDD(Resilient Distributed Datasets)模型大大提高了其处理速度,使其在交互式计算和迭代计算方面远胜于Hadoop,擅长迭代计算的优势使得Spark处理平台非常有利于成为大数据的数据挖掘利器。大数据的核心处理之一就是数据挖掘,而处理要求也高,Spark的出现正是迎合了广大企业、学者的需求。聚类算法是数据挖掘中的一个重要部分,而如今Spark平台对聚类算法的支持只有K-means,鉴于该算法只适用于球形数据集,因此在Spark上实现对任意数据集都能够聚类的聚类算法很有必要。聚类算法中CURE算法具有很好的聚类效果,而且适用于任意数据集,但其复杂度较高,因此在Spark上实现对CURE算法的并行化可以提高聚类效率,使得聚类算法能够在大数据处理平台得以丰富起来。目前,智能移动设备引领的移动互联网非常火热,全球各企业无不对其密切关注,抓住移动市场就是抓住了关键的商机,因此非常有必要对移动互联网用户的数据进行挖掘,以便对移动用户提供个性化营销和业务推荐,留住用户为企业带来利益。鉴于目前国内外对Spark平台上的聚类算法实现研究甚少以及前文等原因,本文将在Spark上研究CURE算法的并行化实现及其应用。本文首先对Spark平台做了详细的分析,同时对数据挖掘算法进行了分析和总结。其次,本文将聚类算法中的CURE算法进行了改进,提出了具有分散式代表点选择算法选择代表点的ACURE算法,使得选择的代表点比原有的CURE算法更加的分散,进一步改善了聚类效果。然后在Spark平台上进行了ACURE算法的数据并行和任务并行的并行化实现研究,并比较了两种并行模式的不同,得出了两者不可同时并行化、采取数据并行化更有优势的结论,同时比较了数据并行时,分区对ACURE算法的影响,并且比较了单机处理和Spark并行化处理的性能。然后将基于Spark的ACURE算法应用在移动互联网大数据的数据挖掘中,对移动互联网用户的上网行为的聚类结果和K-means的聚类结果进行了对比,得出了ACURE算法在聚类效果上更符合实际的结论,最后对移动互联网用户数据在时间、兴趣、消费水平等方面进行了深入的挖掘,为个性化推荐提供了丰富的用户内容。
其他文献
对熊彼特的资本主义演化或发展理论,迄今为止有两种不同的评价。有的学者把熊彼特作为所谓"演化经济学"的先驱,也有学者不同意这种看法。熊彼特一方面信奉一般均衡论,另一方
国内统计资料证实,由于交流混入直流系统,已发生多起继电保护装置失灵、误动作等重大事故,并造成较大的经济损失。文章针对交流混入直流系统检测装置进行深入的原理分析。
泡沫混凝土以其质轻、保温隔热、隔音吸声和不燃等优越性能,正在成为一种人们广泛关注的新型节能墙体材料。国内外学者对其做了大量的研究开发,使其广泛应用于墙体材料中。尽管
公司治理效率是对既定治理结构与机制有效性的度量,也是对公司治理目标实现程度的评价。恰当的公司治理效率评价方法必须兼具目标合理性与现实有效性。通过对现有评价方法的
“热爱孩子是教师生活中最主要的东西。”前苏联教育家苏霍姆林斯基的这句话,一直扎根于我的心底。从教十六年来,我的教育生活一直充溢着与学生之间爱的故事。最难忘的是2011
期刊
儒道互补是两千多年来贯穿中国思想文化的一条基本线索。儒、道两家尽管理论侧重点和进路有所不同,但终极目标是相通的,由此形成了彼此之间互为补充的独特文化形态。就小品文
“实验建筑师”作为国内建筑学界的一个特定语汇,产生于90年代末期,是指90年代末-20世纪初学界一批由于设计实践具有创新性而最早引起建筑界关注和讨论的建筑师的称谓,如张永和
介绍了大气折射和大气色散的概念,推导了它们的计算公式。通过数值迭代的方法计算了一定条件下各种模型的大气折射和大气色散值。分析得到了各种模型下大气折射和大气色散的
目前,服务行业已成为经济增长主动力,其主力军却是小微企业。随着客户个性化需求的不断增加,小微企业迎来了发展的机遇期,其发展方向是高品质、精细化和专业化。因此,他们越
上世纪九十年代以来,随着我国经济社会的发展和城市化进程的加速,全国范围内掀起的大规模旧城改造运动对历史街区带来了“建设性破坏”,导致了城市历史文化的断裂和消失;随后兴起