论文部分内容阅读
针对传统协同过滤算法在处理超大规模用户物品评分矩阵时面临的计算时间过长问题,本文对基于ALS的协同过滤算法和分布式计算框架Spark的相关特性进行研究,并采用协同过滤的经典数据集:MovieLens数据集和Netflix数据集,在Spark集群上进行了实验.实验结果表明,并行的ALS算法显著缩短了基于矩阵分解的协同过滤算法的运算时间.但由于集群计算的特点,ALS算法面临时间复杂度、空间复杂度和通信复杂度的三重挑战.从实验结果可见,在增加并行核心数的初期运算时间迅速缩短,但在达到一个并行核心数门限时,将无法通过增加核心数来进一步缩短运算时间.