论文部分内容阅读
随着信息时代的高速发展,互联网平台上每天都会产生海量数据,如何从这些海量的数据中提取出有价值的信息具有重大的意义。Hadoop技术提出的HDFS和MapReduce技术解决了海量数据的分布式存储和计算问题;Spark技术提出RDD数据模型和基于内存的计算模式擅长于快速数据处理,特别是在需要反复迭代的数据挖掘工作中更为出色。本论文正是基于大数据和云计算的应用背景,对 Hadoop计算平台调度算法和 Spark数据挖掘算法进行研究。 论文首先介绍了Spark技术的背景知识,简要讨论了Spark技术的系统架构、RDD的编程思想、k-means聚类算法和相关推荐算法等。同时,论文还分析介绍了Hadoop计算平台的作业调度算法。 针对现有hadoop平台作业调度算法无法很好满足多任务调度的问题,论文提出了基于权值的hadoop计算能力调度算法,该算法通过动态计算各个任务的权值,同时均衡考量不同任务的优先级、计算资源需求、数据资源位置等信息调整任务调度顺序,实现多作业快速执行以及计算节点负载均衡。实验结果表明本算法在多任务调度的情况下可以更加快速处理海量数据。 针对现有数据挖掘算法的优化,论文还提出了基于Spark平台的k-means聚类算法、推荐算法优化以及在该平台上并行化实现。对于k-means聚类算法,提出了非均匀选择初始值的策略,通过设计数据点采样概率函数,使得区分度大的数据点被选中作为初始聚类中心;对于协同过滤推荐算法,提出了采用基于用户评分偏好聚类对协同过滤推荐进行系统优化。论文在真实计算环境下对两种算法的进行并行化实现,实验结果表明两种优化算法能够在Spark平台上并行化快速处理海量数据,并保证了处理结果具有更高的聚类准确性以及推荐精度。