论文部分内容阅读
基于工业领域广泛用到的Hadoop分布式计算平台,使用Canopy+K-means算法对手写数字进行聚类研究.针对传统Canopy算法初始阈值的确定问题,引入“最大最小化原则”确定初始阈值,计算得到K-means算法所需的初始聚类中心点.实验结果表明,Canopy算法能够较大程度地提高K-means算法的正确率.