论文部分内容阅读
随着信息技术的飞速发展,大量应用程序的执行产生了跨越千兆级门槛的数据,因此增加了对数据的处理和分析能力的要求.本文在对Hadoop平台以及K-means算法深入研究的基础上,提出了Hadoop平台上Kmeans算法的并行化思想,并通过实验采用改进后的K-means算法(DK-means算法)实现了对数据的并行化处理,对实验结果的分析表明K-means算法的并行化增加了算法的可扩展性,可以满足大数据处理的性能需求.