论文部分内容阅读
MapReduce计算场景下,复杂的大数据挖掘类算法通常需要多个MapReduce作业协作完成,但多个作业之间严重的冗余磁盘读写及重复的资源申请操作,使得算法的性能严重降低。为提高Item Based推荐算法的计算效率,首先对MapReduce平台下Item Based协同过滤算法存在的性能问题进行了分析;在此基础上利用Spark迭代计算及内存计算上的优势提高算法的执行效率,并实现了基于Spark平台的Item Based推荐算法。实验结果表明:当集群节点规模分别为10与20时,算法在Spark中的