论文部分内容阅读
在超大规模数据集的分簇管理上,存在大数据获取、存储、检索、分析和可视化等困难。面对爆炸式增长的数据,利用分布式、并行计算原理,在MapReduce模型的基础上构建并行粒子群优化算法(PSOC-MR),实现对超大规模数据的有效分簇处理。实验结果表明,PSOC-MR算法在集群节点数量与数据集大小等比例增加的情况下呈现良好的可扩展性,能在保持分簇质量的同时呈现线性加速,该算法可有效解决超大规模数据集的分簇问题,实现低成本、高性能的商用大数据分析。