基于Spark的K-medoids聚类算法的研究

来源 :大连大学 | 被引量 : 5次 | 上传用户:liyyng1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和传统各个行业的深度融合,数据正在呈现井喷式的增长,在这个数据为王的时代,人们愈发的认识到海量的数据中蕴含的信息对于我们的工作和生活有多重要的指导作用。从这些海量的数据中快速的发掘出有用的知识并用于指导生活和生产是一个非常有价值的研究课题。显然传统的聚类算法处理的数据规模相对来说还是较少,但是聚类的效果还是不错的,但是在处理海量数据的时候,显然传统的串行算法无法迅速的完成挖掘任务,而且随着数据量的增大,运行速度变得更缓慢。本文的主要工作是通过研究传统的Canopy算法和K-medoids算法的优缺点,Canopy算法可以快速的实现粗聚类,能快速的得到几个Canopy中心,K-medoids算法对噪声的鲁棒性很好,但是需要事先指定K值,于是就将Canopy中心点作为K-medoids算法的初始聚类中心,实验表明该方案可行。但是在处理海量的时候,这两个算法就显得力不从心,于是在大数据平台上将传统的聚类算法并行化,首先将传统这两个算法结合起来在Hadoop平台上利用MapReduce编程模型实现它们的并行化(HCKM算法),虽说在一定程度上能较快的处理海量的数据,但是在实际问题中需要处理多次迭代的数据时,性能就变得差强人意。其次又在Spark平台上利用RDD的Transformation操作和Action操作将这两个算法实现其并行化(SCKM算法),能得到较好的收敛速度和结果的稳定性。本文将Canopy-K-medoids算法部署在Hadoop集群和Spark集群上运行。分别对传统K-medoids算法、HCKM算法和SCKM算法进行测试,并在加速比、准确性等方面进行比对,最终验证了基于Spark的改进的Canopy-Kmedoids算法(SCKM算法)具有很好的性能,能更快速、稳定的处理需要多次迭代的海量数据,处理的数据也具有更好的准确性。
其他文献
深圳抽水蓄能电站的引水隧洞为高压引水隧洞,属于1级水工建筑物,最大水头压力5MPa。为确保引水隧洞永久性安全运行,在水泥灌浆完成后,通过高压化学灌浆补强处理,增加了断层和
目的 了解白细胞介素-1β(IL-1β)在破骨细胞性骨吸收中的刺激作用,并评价降钙素基因相关肽(CGRP)的拮抗效果。方法:将新生大鼠破骨细胞和成骨细胞混合培养,接种于预置象牙片的培养
1、防氧化保鲜袋用厚0.08毫米的聚乙烯塑料薄膜,制成50厘米×75厘米的袋,然后将两个袋套在一起(内袋先用缝衣针扎上数10个小孔),中间夹上1~2层用化学物质"去氧剂"浸渍并风
<正> (一)国内蔬菜市场现状 国内蔬菜市场的现实情况是经过十多年的蔬菜产销体制改革,特别是农业部1988年提出并经国务院批准组织实施“莱蓝子”工程以来,在科技推动下,我国
用正交试验设计的方法选择样本点构建神经网络响应面,将神经网络响应面作为优化的目标函数或约束条件,加上其它常规约束条件建立优化模型,应用遗传算法(GA)进行优化,形成一套
采用等离子体处理方法对PBO(聚对苯撑苯并二口恶唑)纤维表面进行改性.用XPS和AFM测试分析等离子处理时间对PBO纤维表面组成和表面形貌的影响规律;首次采用浸润性测试和IR测试
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
会议
随着2012年全国人大常委会对《老年人权益保障法》的修订,社会对老人宜居区的关注也随之提高。老旧既有住宅小区内景观设计单一,以大面积绿地为主,缺乏老人休闲、健身的场地;
【摘 要】全国教育改革来临,新的课程标准关注学生的全面发展,赋予了语文新的难度和新的高度。促使语文教学改革从基础抓起,必须坚持课内外结合,拓展语文教学的深度和广度,借助新媒体促进教学方式的灵活多样,同时发扬传统文化,在学生中建立文化自信。  【关键词】教育改革;语文教学;创新  “新高考”“部编本”已经成为当今时代的热门话题。“部编本”语文教材总主编温儒敏教授曾经说过一句话“语文高考最后要实现让1
利用自蔓延高温合成-重力分离法制备了陶瓷内衬20碳钢、Cr25Ni20耐热钢和1Cr18Ni9Ti不锈钢高炉煤粉喷吹复合管.对其界面现象的研究表明,金属/陶瓷间的结合主要表现为机械结合