基于Spark平台的K-means算法并行化研究

来源 :天津理工大学 | 被引量 : 2次 | 上传用户:tiantianle_a
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,海量数据环境变得更为普遍,如何从大数据中快速有效地挖掘出有价值的信息成为了研究的热点。面对海量数据的分析计算,分布式计算框架逐渐成为解决这类问题的主要方法,通过Spark等分布式计算框架能有效解决单机环境下的内存溢出问题,利用集群资源提高传统数据挖掘技术的扩展性和运行效率,并转入实际的应用中,对充分利用大数据中蕴含的信息具有重要的意义。本文重点研究了K-means聚类算法及其优化方法在Spark平台上的并行化设计与实现,从算法的运行效率角度进行性能提升。首先,对传统K-means算法的基本原理和Spark框架的并行化特点进行了介绍。然后,在充分研究Spark编程模型和并行化设计的基础上,分别从减少冗余计算量、提高样本代表性这两个方面对K-means算法进行改进,同时基于Spark平台设计并实现了改进算法的并行化策略。本文的主要内容和创新点如下:1)针对传统K-means算法存在的冗余计算量大的问题,对Spark机器学习库采用的三角不等式优化方法的原理和局限性进行了详细的分析,提出了基于空间分布信息的改进方法。改进方法通过引入空间分布信息对数据点与聚类中心的关系进行量化描述,从而实现在数据点分配过程中对聚类中心的过滤,以此加速数据分配的过程,避免了原始算法中的绝大多数冗余的距离计算,能够从根本上提高算法的运行效率。2)针对传统的随机取样策略样本代表性不足的问题,提出了基于密度加权的取样方法。通过新的取样策略使全体数据都能在样本中不同程度地有所体现,以此提高样本的质量,并结合预聚类的方法提升算法运行效率。基于上述研究成果,将改进后的两种策略分别在Spark平台上进行了并行化设计与实现,通过实验对改进后算法的运行效率、扩展性、聚类质量进行验证。实验结果表明,两种改进策略均能显著提高算法在Spark平台上的运行效率,并且在集群环境中表现出了较好的扩展性、加速比。
其他文献
企业处于不同的发展阶段,面对不同的经营环境,会选择不同的发展战略。企业选择的战略定位准确与否,对企业的发展生死攸关。质检企业是影响国民生活的一个非常特殊的企业群体,
本文以广东省高速公路有限公司为例,分析了国有省级高速公路集团公司实行财务人员集中管理的必要性,然后重点论述实行财务人员集中管理的具体措施。
P16基因与肿瘤关系的研究进展于锡欣孟令详P16基因,作为近年发现的对细胞周期有直接调节作用的负向调节基因,在多种肿瘤中普遍存在着改变(alteration),已取代P53,成为目前肿瘤基因研究的热点,现就P16基因与
本文通过对 1978~1998 年我国文献学理论研究状况的介绍,阐述了主要代表人物的不同学术观点,并就有关文献定义、属性和文献学学科体系、范围及内容等方面研究的问题进行了归纳和评述,分析
对所研制的摩阻材料在1:1惯性制动试验台上进行停车制动试验过程中所表现出的温度特性进行了研究,并从能量转化、传热、材料性能变化等几方面进行了分析。结果表明:各制动初
回顾了临氢降凝反应机理,临氢降凝催化剂的工业化现状以及常用分子筛ZSM-5的研究进展。对于临氢降凝,其催化剂要根据孔道结构、酸强度、加氢活性综合考虑;目前工业现状表明,
教师不仅要引领学生理解知识、积累知识,还应促进学生整理能力的提升。要强化学生的独立意识,引导学生在汲取新知时,在课前准备时,在自主学习后……进行整理,从而促进学生数
2018年3月17日,第十三届全国人民代表大会第一次会议表决通过了国务院机构改革方案,决定将出入境检验检疫管理职责和队伍划入海关总署,这一决定是党中央在新形势下对外开放格局
报纸
目的:验证颈椎鹿灵汤联合针刺治疗神经根型颈椎病的临床疗效。方法:70例神经根型颈椎病患者随机分为治疗组和对照组。治疗组35例给予中药颈椎鹿灵汤联合针刺天宗穴治疗,对照