论文部分内容阅读
K—means应用于MapReduce框架的大数据处理可显著提高K—means对大数据集的处理能力。但K—means聚类算法需要进行多次迭代才能达到可接受的效果,并将每次这代作为一个独立map作业执行,需要读写整个数据集.从而导致显著的I/O消耗,与MapReduce框架的设计理念不符。为此,提出了一个基于MapReduce的单遍K—means算法(MR—SK)。该算法采用流数据单遍算法读取数据,聚类时采用K—means++初始化seeding算法得到初始聚类中心。在理论分析MRSK算法复杂度的基础上,进