论文部分内容阅读
近年来,互联网技术的快速发展促进了信息量指数级增长,从而将我们带入了信息过载时代。目前,推荐算法是解决该问题的有效方法之一,其中应用最成功的要属协同过滤推荐算法。协同过滤推荐算法根据用户订阅或浏览物品的历史轨迹,寻找与目标用户或物品的最近邻居集,再根据最近邻居集中用户对物品的评分来预测目标对象的评分,最终将排名靠前的多个物品推荐给用户。这种算法无论在学术界还是在工业界都有很高的认可度,但同时也存在一些像冷启动、数据稀疏性和扩展性不强等问题。云计算技术的出现吸引了广大科研工作者的兴趣,为解决这些问题提供了新的解决思路。本文融合云计算Hadoop技术和聚类技术,研究了新时期的协同过滤推荐算法。本文主要工作及创新点包括如下方面:1.针对传统的K-means算法和Canopy算法,着重分析了初始中心随机选择的问题,提出了一种利用最小方差获取Canopy最优全局中心作为K-means聚类中心初值的MVC-Kmeans(K-means based on the Minimum Variance Canopy)算法,并详细的介绍了算法的实现过程,在标准UCI数据集上进行了并行化MVC-Kmeans算法实验验证。结果表明:与传统K-means聚类算法相比,本文方法可以得到更好的聚类质量和更快的收敛速度,并适于大规模数据的聚类分析。2.针对推荐系统,着重分析了协同过滤推荐算法,对于该算法存在的数据稀疏性和扩展性缺陷,本文提出了基于MVC-Kmeans聚类的协同过滤推荐算法并具体地描述了各阶段的原理与实现。该方法的主要思路是:首先引入ALS(交替最小二乘法)矩阵分解技术对稀疏评分矩阵进行填充预处理,然后融合MVC-Kmeans聚类技术对填充后的评分矩阵构建项目聚类模型,最终在聚类模型确定的候选集上完成基于项目的协同过滤推荐。同时,对基于MVC-Kmeans聚类的协同过滤算法在电影数据集MovieLens上,从参数的设定到推荐质量、数据稀疏性和加速比等方面进行了实验分析。结果表明:本文方法对于不同稀疏度的数据集具有良好的鲁棒性,相比其它的协同过滤推荐算法能获得更好的推荐质量,且在不同大小数据集上拥有良好的加速比。