论文部分内容阅读
针对K-means算法聚类质量和收敛速度取决于初始聚类中心选取的问题,提出了一种利用最小方差获取Canopy最优全局中心作为K-means聚类中心初值的算法,并利用Hadoop平台MapReduce编程模型进行了分布式MVC-Kmeans算法的设计与实现。标准UCI数据集测试结果表明,与传统K-means聚类算法相比,该算法可以得到更好的聚类质量,且收敛速度更快,适于大规模数据的聚类分析。