基于Spark框架的并行聚类算法

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户：Orange_zz

【摘要】

：

针对传统K-means算法在处理海量数据时存在距离计算瓶颈及因迭代计算次数增加导致内存不足的问题,提出了一种基于Spark框架的SBTICK-means（Spark Based Triangle Inequality C

【作者】

：

李淋淋倪建成曹博于苹苹姚彬修

【机构】

：

曲阜师范大学信息科学与工程学院,曲阜师范大学软件学院

【出处】

：

计算机技术与发展

【发表日期】

：

2017年5期

【关键词】

：

K-MEANS SPARK 大数据 HADOOP MAP REDUCE K-means Spark big data Hadoop MapReduce

【基金项目】

：

国家自然科学基金（青年基金）（61402258）,山东省本科高校教学改革研究项目（2015M102）,校级教学改革研究项目（jg05021＊）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对传统K-means算法在处理海量数据时存在距离计算瓶颈及因迭代计算次数增加导致内存不足的问题,提出了一种基于Spark框架的SBTICK-means（Spark Based Triangle Inequality Canopy-K-means）并行聚类算法。为了更好地解决K值选取的盲目性和随机性的问题,该算法利用Canopy进行预处理得到初始聚类中心点和K值;在K-means迭代计算过程中进一步利用距离三角不等式定理减少冗余计算、加快聚类速度,结合Spark框架实现算法的并行化,充分利用Spark的内

其他文献

从卫星观测数据提取地震前兆信息研究中的参考文献

如何从卫星观测数据中提取地震前兆信息，是近年来的一个跨空间物理、地震学和板块构造学等交叉领域的研究焦点，本文收集整理了部分近年来国外学者在该方面研究的论文，以供相关领

期刊

卫星数据地震前兆参考文献satellite data precursors of earthquakes reference catalog

散乱点云的边界提取

基于Kinect体感技术获取的周围环境点云数据量大,其中点云的边界是重要特征,是机器人导航的重要参数。为获得复杂散乱点云的边界特征,提出了一种基于点云库(PCL)的物体分割以及边缘轮廓提取算法。该算法通过建立散乱点云的kd-tree空间拓扑结构,经直通滤波、表面平滑处理对点云数据进行去噪、填补空洞。由于实际环境包含大量的平面,因此采用基于随机采样算法(RANSAC)可寻找种子点确定平面,进而应用平

期刊

散乱点云KD-TREE边界特征提取分割Scattered point cloud kd-tree boundary characteristic e

瑞士开采地热不当引发3．4级地震

地热可作为清洁能源来利用，但开发地热不当也会引发灾难。最近，瑞士巴塞尔在钻井开采地热过程中引发了3．4级的地震，造成当地居民的恐慌。

期刊

钻井开采地热地震瑞士清洁能源热过程巴塞尔

从养和被养所得到的启示

从养和被养所得到的启示赵怀珍我们读易卜生的《玩偶之家》，看到娜拉不愿做丈夫的玩物，愤然出走，这一维护妇女人身权益的行动，在当时对广大妇女是一种鼓舞。但娜拉走出家庭，如何生

期刊

蒲松龄农业生产生产劳动封建社会封建礼教市民阶层自己支配自己《聊斋志异》启示资本主义生产方式

BIM技术在建筑机电工程中的实施探索

随着国家经济的发展，人们对建筑机电工程提出更高的要求。应用BIM信息技术在建筑机电工程中对建筑实施数据化、信息化模式整合，有助于提高生产效率，节约建筑成本，受到建筑运营单

期刊

BIM技术建筑机电工程实施探索

建筑钢结构的防腐技术应用分析

随着建筑工程的日益发展,建筑用料的需求也越来越大。钢结构作为建筑当中的主要结构形式,因而应用范围广,用量较大。然而钢材作为一种金属,很容易因为外界环境的影响而发生

期刊

建筑钢结构防腐技术应用要点

填空补阙　祛疑订误──评《蒲松龄生平著述考辨》

填空补阙祛疑订误──评《蒲松龄生平著述考辨》王枝忠提起《聊斋志异》，许多人都可以如数家珍般举出许多篇章，讲述其中某些故事情节。可要问及其作者蒲松龄，能说出个Ａ、Ｂ、Ｃ来的恐

期刊

蒲松龄生平著述《聊斋志异》考辨路大荒订误祛疑补阙生平事迹文献资料

建筑电气设备自动化的节能技术应用分析

随着我国经济的越来越发展，人们的生活水平也越来越高，生活质量也越来越高，在日常生活中电气设备越来越常见，借助建筑电气设备自动化的设计，达到节能的目标，已经成为社会热点问题。

期刊

建筑电气设备自动化节能技术

SMP集群系统的可扩放性分析

随着并行计算技术的快速发展和SMP集群的普及，可扩放性已经成为并行应用程序设计和实现方面最重要的性能之一。但传统的可扩放性评价准则不能对SMP集群的可扩放性进行较精准的

期刊

并行计算SMP集群可扩放性等效率parallel computing SMP clusters scalability ISO-efficien

建筑材料检测科学性、准确性影响因素分析

建筑材料检测工作是建筑施工中的必要工作，保证材料检测科学、准确就是保证建筑材料质量合格。本文笔者对建筑材料检测工作进行了分析研究，总结了建筑材料检测中使用的科学方法

期刊

建筑材料检测工作科学性

基于Spark框架的并行聚类算法

与本文相关的学术论文