基于Hadoop的k-means聚类算法并行实现

来源 :浙江省信号处理学会2015学术年会 | 被引量 : 0次 | 上传用户：soton0001

【摘要】

：

本文结合MapReduce并行编程模型的优势,提出了一种k-means聚类算法的并行实现方式.通过随机抽样将整个数据集分成n块,n可以根据数据集的大小确定;采用预聚类和线性预测改善聚

【作者】

：

顾嘉伟尚俊娜

【机构】

：

杭州电子科技大学通信工程学院,杭州310018

【出处】

：

浙江省信号处理学会2015学术年会

【发表日期】

：

2015年12期

【关键词】

：

数据挖掘 MapReduce并行编程模型 k-means聚类算法数据集

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文结合MapReduce并行编程模型的优势,提出了一种k-means聚类算法的并行实现方式.通过随机抽样将整个数据集分成n块,n可以根据数据集的大小确定;采用预聚类和线性预测改善聚类中心质量;Map函数完成数据分块和聚类中心初始化,Reduce函数实现数据块的聚类迭代.实验表明,相比于其他并行实现方式,本文所提出的并行方式使得算法效率更高,性能更优.

其他文献

基于反射光谱特征的光谱匹配方法研究

　　在用光谱仪从野外获得高光谱数据后，就需要对光谱数据进行系统的分析。但对于光谱形态相似的光谱曲线，用普通的匹配方法对其进行区分的效果都不太好。在对光谱反射曲线深入

会议

光谱反射光谱特征参量光谱匹配吸收特征高光谱数据光谱曲线包络线消除重新定义

基于多视图一致性低秩稀疏学习的视频目标跟踪

　　本文综合三种方法(MVCLRST,MTMVT和LRST)的优点,提出了一种新的基于目标外观模型的一致性和多种特征的多视图一致性低秩稀疏跟踪方法(MVCLRST)。该方法基于广泛使用的粒

会议

基于采样随机一致和尺度不变特征的视频稳像处理

　　本文研究了一种新的以随机采样一致和尺度不变算法为基础的视频去抖动的稳像处理。首先基于改进的随机采样一致算法来得到一个补偿矩阵，然后通过尺度不变特征这种新颖的算

会议

随机采样尺度不变不变特征视频去抖动算法计算速度稳像处理视频图像

基于图像的潮水线检测

　　针对钱塘江涌潮到达时间难以准确预报以及涌潮破坏力大这一问题，本文提出了基于图像的潮水线检测方法，以便对涌潮的到达进行准确预报，进而减少人员伤亡事件的发生。该方法主

会议

基于图像潮水钱塘江涌潮预警策略预报水线检测方法可靠性要求

一种基于特征金字塔树的图像分类算法

　　传统的图像分类算法没有利用到局部特征之间的空间关系,并且忽略了图像底层特征中的颜色信息,因此,本文提出一种基于特征金字塔树的图像分类算法。该算法首先利用CSIFT(c

会议

基于特征金字塔匹配彩色图像invariant feature分类算法局部特征支持向量机方法颜色信息

一种基于降维超矢量的说话人确认方法

本文使用TIMIT语料库通过最大期望算法训练得到512阶的通用背景模型,以MIT语料库为主实验库,通过贝叶斯学习算法从通用背景模型中自适应训练得到MIT两个信道下全部注册者的模

会议

语音识别说话人确认均值超矢量等错误率

一种利用数学形态学改进的SGA端元提取算法

　　N-FINDR方法和单形体增长算法(SGA)由于原理简单、提取效果好等优点而被广泛关注。使用N-FINDR方法和SGA进行端元提取时，需要对原始图像数据进行降维处理，而在降维处理时有

会议

GPU在关联成像大数据运算中的应用

与透镜成像系统相比,关联成像具有光学分辨率高的优点,但需要计算能力很强的计算平台来实现.考虑到这个问题,本文提出了一种高效的、并行的基于图形处理器(graphics processi

会议

关联成像图形处理器数据处理

基于多标签关系的多媒体信息检索

　　多媒体信息检索算法考虑样本和样本之间的连接关系，同时也要考虑不同标签之间的语义关系。为了同时建模这两种关系，理论上应采用构建关系三元组的方式描述数据内潜在的互动

会议

多标签连接关系多媒体信息检索三元组样本信息检索算法数据结构支持向量

一种基于不确定数据的Top-k查询算法

由于数据来源的多样性,数据本身具有了不确定属性,从不确定数据中查询目标信息是数据服务需要解决的重要问题.本文在不确定数据模型基础上,定义了一种不确定Top-k查询操作,然

会议

不确定数据Top-k查询算法性能测试仿真分析

基于Hadoop的k-means聚类算法并行实现

与本文相关的学术论文