Hadoop平台下Mahout聚类算法的比较研究

来源 :计算机科学 | 被引量 : 0次 | 上传用户:LUOMINGGANG818
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类是数据挖掘中的一门重要技术,用于将物理或抽象对象的集合划分成由相似对象构成的多个类。如何将传统聚类算法应用于大规模数据的聚类,是当前大数据研究领域中的热点研究问题。对云计算平台Hadoop下开源机器学习软件库——Mahout中的Canopy、标准K-means、模糊K-means 3种聚类算法的原理及其MapReduce实现进行了比较,并在构建的有不同个数节点的集群上,在不同规模的数据集下对这3种聚类算法进行了实验,从加速比、可扩展性和规模增长性3个方面进行比较。实验结果表明,在并行环境下:Canopy算法运行速度最快,K-means算法次之,模糊K-means最慢;3种算法均有较好的加速比,其中Canopy算法加速比最好,模糊K-means算法在数据量和节点个数达到一定规模后加速比大幅提高;3种算法均有较好的可扩展性和规模增长性,且随着数据规模增加,可扩展性和规模增长性增强,其中Canopy算法可扩展性最好,模糊K-means算法的可扩展性和规模增长性增强幅度最大。
其他文献
<正>糖尿病前期又称糖调节受损,是正常人向糖尿病的过渡阶段,在人群中患病率高达15.15%[1]。由于其病程具有可逆性,进行有效的生活行为、心理综合干预对延缓病程的进展有重要
一、傅斯年首先是个学者,是个能博能精的学者能博是指他读书多,知识渊博,通古今,融中外他的"博"表现在:1.读书时,将章太炎弟子赶下讲台。朱逢仙《文心雕龙》讲义,一夜读完,摘出3
图形作为世界的通用语言,作为视觉传送设计的重要组成部分,在现代社会中有着无法言表的意义,它有着自身"图"与"形"的组织方法与创作规律,图形充斥着我们的生活,让我们的生活
企业文化是企业家在企业发展过程中形成的经验与理念的概括与精华。从深层次考察,企业文化体现了企业所属国家的民族文化,其中以美国和日本最为典型。本文分析了美国、日本企
如果说大地景观是一个生命的有机体,那么生态气候就是这个生命赖以生存的氧气。它们相互作用相互依存密不可分。本文研究从场地生态气候学理论中获得启发,结合营口白沙湾生态
菲律宾和马来西亚关于沙巴的主权纠纷由来已久,是影响两国关系发展的重要事件。通过分析本文认为,1878年英国和苏禄缔结条约的翻译问题是引起沙巴主权纠纷的主要原因。此外,1
经过19世纪后期数十年的发展,吉隆坡由一个小城逐渐变成雪兰莪州的首府,来自中国的福建人的人数也逐渐增长。虽然并未能如广府人和客家人的数量之多,但也最终成为吉隆坡第三
重点从政策导向、个体需要、价值定位、身份背景、同辈群体等五个方面,剖析影响当代大学生士兵价值取向的主要动因,并从加强教育引导、强化角色适应、优化育人环境、创新培养机
电子商务的蓬勃发展、制造业向服务业的转变是世纪之交出现的两个非常明显的趋向。本文的着眼点放在了这两个趋向的交叉点上——研究电子商务环境下的E-Service质量测度。第