论文部分内容阅读
本文结合MapReduce并行编程模型的优势,提出了一种k-means聚类算法的并行实现方式.通过随机抽样将整个数据集分成n块,n可以根据数据集的大小确定;采用预聚类和线性预测改善聚类中心质量;Map函数完成数据分块和聚类中心初始化,Reduce函数实现数据块的聚类迭代.实验表明,相比于其他并行实现方式,本文所提出的并行方式使得算法效率更高,性能更优.