基于MapReduce的单遍K-means聚类算法

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:wangjue419
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
K—means应用于MapReduce框架的大数据处理可显著提高K—means对大数据集的处理能力。但K—means聚类算法需要进行多次迭代才能达到可接受的效果,并将每次这代作为一个独立map作业执行,需要读写整个数据集.从而导致显著的I/O消耗,与MapReduce框架的设计理念不符。为此,提出了一个基于MapReduce的单遍K—means算法(MR—SK)。该算法采用流数据单遍算法读取数据,聚类时采用K—means++初始化seeding算法得到初始聚类中心。在理论分析MRSK算法复杂度的基础上,进
其他文献
针对分形图像压缩过程中匹配编码效率和保证重构图像质量的冲突问题,在定义一种图像子块的新特征—相似比的基础上,提出一种基于小波变换与分形编码相结合的图像压缩算法。该算法首先利用小波变换对图像进行处理,由于经过小波变换后的原图像自相似性被破坏,在引入分形特征时,对于低频区域图像信息不再进行分形压缩,直接保存处理;在高频区域则利用提出的相似比特征,定义每个range块和domain块的相似比,建立它与匹
K-means聚类算法是基于划分的经典聚类算法之一,因其简洁、高效得到了广泛的应用。K-means算法具有容易实现、时间和空间复杂度较小的优点。但该算法的初始聚类数K通常不能通
针对现有的云计算环境下的任务调度策略缺乏考虑用户任务偏好从而导致虚拟机资源利用不充分、用户对服务质量满意度不高等问题,提出了云计算环境下基于马氏距离的任务调度策略
形变、重力分会场学术交流会议交流了20篇论文,有6篇摘要做了会议报告。本次大会的主题为“汶川地震研究及30年来地震科学进展与展望”,报告的内容也是围绕这一主题展开的。
有限高斯混合模型广泛应用于模式识别、机器学习和数据挖掘等领域,但现实中的许多数据都具有非高斯性,而高斯混合模型无法准确地描述这些数据。此外,有限高斯混合模型还存在参数
针对传统迭代算法在解决大规模问题时速度较慢的问题,在介绍了压缩感知中重构的基本模型以及传统不动点迭代方法(FPC)的基础上,提出了一种新的重构算法-快速不动点迭代方法(FFPC
基于非均匀变异算子的状态空间进化算法(NUMSEA)是一种具有新颖性的实数编码进化算法.针对传统的状态空间进化算法转移矩阵的不足,设计一种基于非均匀变异等算子改进的状态空间
为了提高指纹定位法的在线定位效率,提出了最强AP模糊分类(SAF)算法。该算法以模糊值为信号强度波动范围并将参考点划分到所有可能的AP类中,降低了参考点类别误判的风险。在此基
一、九十年代西方商业银行市场营销的发展 进入九十年代,西方商业银行市场营销呈现下列特点: ——银行市场营销活动的目标多元化 虽然银行市场营销活动的最终目的是促进银行
针对DV-Hop算法在估计平均每跳距离时存在较大误差以及DV-Hop算法在采用最小二乘法时对测距误差有比较敏感的反应,提出一种基于模拟退火的加权定位算法。改进的算法通过引入