基于Spark的K-means聚类的并行实现与优化

来源 :福建电脑 | 被引量 : 0次 | 上传用户:poco666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为解决传统聚类算法K-means在处理海量数据聚类时对初始中心点的选取十分的依赖,容易得到部分最优而非全局最优的聚类后果,提出了一种基于Spark改进的聚类优化DMCK-means算法。DMCK-means算法首先应用密度法排除孤立点和噪声点使初始聚类中心选取趋于最优化;采用Canopy算法和最大最小距离原则,粗略聚类降低运算规模同时避免中心选取的盲目性。实验结果表明:该改进算法不仅降低了对初始聚类中心点选取的依赖,而且降低了聚类的时间,具有良好的扩展性和可行性,在处理大规模海量数据时能展示出较大的优势。
其他文献
二维彩色条码采用不同颜色、不同数量色块的排列组合来对信息进行编码,其已经被广泛应用于物品溯源、防伪认证等领域。本文提出一种二维彩色条码图像的生成与识别算法。此方法先利用Matlab的图形用户界面(GUI)编程实现二维彩色条码图像的生成,产生标准的二维彩色条码图像。然后,提出一种结合边缘检测与最近邻分类思路的二维彩色条码识别方法。在一系列标准和拍照所得二维彩色条码图像上的实验结果证实了本文方法的有效