基于K均值方法Spark化方法研究与实现

来源 :南京财经大学 | 被引量 : 2次 | 上传用户:liongliong464
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析一直是数据挖掘领域的核心研究议题之一,不仅得到国内外研究者们的长期持续关注,亦在工业中的很多领域得到应用。在大量的聚类方法中,K均值算法因其简洁高效、聚类结果鲁棒且易于解释、适应面广等优点,成为最基础且应用最广的方法。随着研究的深入,K均值方法体系渐趋庞大,形成大量的K均值方法变例,如适合高维稀疏文本聚类的Info-Kmeans、模糊c均值、组合聚类方法KCC等,这些方法都沿袭了K均值的两阶段迭代过程:距离计算和更新类簇中心。大数据时代的到来使得单机聚类算法难以胜任大数据聚类的要求,因此,如何利用分布式计算技术提升大数据聚类的可扩展性成为一个重要问题。本文聚焦于如何将K均值方法体系的通用分布式聚类框架设计与实现,该框架需具备两个特性:首先,可以支撑K均值方法体系中的主流算法,而且可以便捷地纳入新的其他基于K均值的算法,即具有通用性;其次,可以胜任大规模数据的高效聚类,即具有高可扩展性。本文主要研究工作包含以下几个方面:1.基于Spark内存计算框架,提出适用于K均值方法体系的通用分布式聚类框架;并对框架中的各个阶段进行了重新设计,增强了框架的适应性及可扩展性,包括:数据加载模块适应高维稀疏数据,距离计算模块支持K均值多种距离函数、以适应不同类型数据聚类的需求。2.模糊c均值需要利用隶属度矩阵来更新中心,计算框架和K均值有所不同,本文设计出模糊c均值的Spark平台的计算框架,使其具有很强的适应性和可扩展性,包括:距离计算模块支持多种模糊c均值的距离函数,隶属度矩阵的更新部分步骤放在距离计算的map函数中,充分发挥了分布式框架的优势使得算法更新效率更高。3.提出了Spark平台的基于K均值的组合聚类算法,包括硬聚类组合聚类和模糊聚类的组合聚类。基于K均值的组合聚类和K均值算法在初始化和距离计算的步骤都不一样,所以本文要结合Spark分布式计算框架的特点设计出合理的初始化和距离计算的方法。4.本文设计的基于Spark内存框架的K均值方法体系在大型UCI数据集和文本数据集的实验结果都证明了聚类效果和执行效率的可行性。在KDDCUP这种拥有百万条数据的数据集上本文的聚类效果和CLUTO接近,速度快于MLlib。同时在如Weibo数据集这类高维数据文本数据集,也取得了良好的聚类效果。
其他文献
目的:观察供体特异性MICA抗体介导的急性体液性排斥反应(AHR)临床及病理改变特征。方法:回顾性分析1例接受肾移植的29岁年轻女性,术后出现肾功能减退,予移植肾活检明确诊断,
<正>1消化道出血1.1一些作者认为发现消化道出血后,就不能再由胃进食物,鼻饲也应停止,这是不恰当的,带有残渣的食物,固然可以引起再出血,但只要肠鸣音仍然存在,由鼻饲给一些
目的探讨彩超引导下自动活检枪经皮肾穿刺活检的成功率、并发症及有关影响因素。方法选择右肾下极近皮质较厚部位,在彩超引导下应用自动活检枪进行经皮肾穿刺活检。并运用SPS
目的观察预见性治疗对脑出血患者并发症的干预作用。方法将符合诊断标准的120例脑出血患者随机分为观察组和对照组个60例。两组患者均于入院后对病情进行全面的评估。在此基
对近几年来独活寄生汤的临床应用、药效学和质量标准等的研究进展加以综述。查阅近几年来关于独活寄生汤研究的国内文献资料,总结其主要研究成果。独活寄生汤临床应用广泛,效
人口老龄化有三大挑战 ,而衡量寿命质量则有四个尺度。在对待老年的态度和有关老年的文化上 ,我国存在着两大误区。从倡导健康老龄化到提倡积极老龄化是人类老龄观的重大变革
在新课程不断深入改革的今天,小学教材也发生了较大的变化,在小学阶段,学生必须习得两千五百个汉字,而在一、二年级就要求掌握一半,这对学生和教师来说,压力都是非常大的。而
以普通增量式光电编码器作为反馈元件的全数字交流伺服系统中,精确测量电机转子磁极初始位置是一个重要的技术难点。提出了一种在静止状态下,快速测量转子初始位置的方法,并
2018年,我又回到了微博这个离开了多年的心情平台。平日里各种心情全都肆无忌惮地写在微博里。这个选择和过程,其实又饱含了我很多的无奈。有些感受不便在朋友圈谈起,只能转
合成了碱溶性聚丙烯酸乙酯/丙烯酸丁酯/甲基丙烯酸[P(EA/BA/MAA)]无规共聚物,研究其对单体甲基丙烯酸甲酯(MMA)和丙烯酸乙酯(EA)的乳化稳定能力。以合成的[P(EA/BA/MAA)]作为高分子乳化剂,进