基于聚类的协同过滤推荐算法研究

来源 :长江大学 | 被引量 : 2次 | 上传用户:ycboyyb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,互联网技术的快速发展促进了信息量指数级增长,从而将我们带入了信息过载时代。目前,推荐算法是解决该问题的有效方法之一,其中应用最成功的要属协同过滤推荐算法。协同过滤推荐算法根据用户订阅或浏览物品的历史轨迹,寻找与目标用户或物品的最近邻居集,再根据最近邻居集中用户对物品的评分来预测目标对象的评分,最终将排名靠前的多个物品推荐给用户。这种算法无论在学术界还是在工业界都有很高的认可度,但同时也存在一些像冷启动、数据稀疏性和扩展性不强等问题。云计算技术的出现吸引了广大科研工作者的兴趣,为解决这些问题提供了新的解决思路。本文融合云计算Hadoop技术和聚类技术,研究了新时期的协同过滤推荐算法。本文主要工作及创新点包括如下方面:1.针对传统的K-means算法和Canopy算法,着重分析了初始中心随机选择的问题,提出了一种利用最小方差获取Canopy最优全局中心作为K-means聚类中心初值的MVC-Kmeans(K-means based on the Minimum Variance Canopy)算法,并详细的介绍了算法的实现过程,在标准UCI数据集上进行了并行化MVC-Kmeans算法实验验证。结果表明:与传统K-means聚类算法相比,本文方法可以得到更好的聚类质量和更快的收敛速度,并适于大规模数据的聚类分析。2.针对推荐系统,着重分析了协同过滤推荐算法,对于该算法存在的数据稀疏性和扩展性缺陷,本文提出了基于MVC-Kmeans聚类的协同过滤推荐算法并具体地描述了各阶段的原理与实现。该方法的主要思路是:首先引入ALS(交替最小二乘法)矩阵分解技术对稀疏评分矩阵进行填充预处理,然后融合MVC-Kmeans聚类技术对填充后的评分矩阵构建项目聚类模型,最终在聚类模型确定的候选集上完成基于项目的协同过滤推荐。同时,对基于MVC-Kmeans聚类的协同过滤算法在电影数据集MovieLens上,从参数的设定到推荐质量、数据稀疏性和加速比等方面进行了实验分析。结果表明:本文方法对于不同稀疏度的数据集具有良好的鲁棒性,相比其它的协同过滤推荐算法能获得更好的推荐质量,且在不同大小数据集上拥有良好的加速比。
其他文献
<正>近期以来,经北京一些研究道教的青年同仁提议,中国社科院世界宗教研究所道教与中国民间宗教研究室筹建了一个主要面向中青年研究者的开放型的学术交流团体,希望能促进同
随着信息化的不断深入,数据以指数形式增加,企业已经不可能降低数据的存储量,因此,多数企业为了提高系统效率,提供多层次业务服务的能力,采取一个灵活、易扩展、易管理的存储
介绍了TiAl有序合金的发展历史、制备工艺、克服室温脆性及难加工成形性方面所开展的研究工作以及发展趋势。
<正> 在大同的历史上,最值得一书的便是它曾在近一个世纪里,以一代王朝的首都成为北部中国政治、经济和文化的中心,在中国历史上留下了光辉的一页。魏都平城的研究自然地引起
我国的经济正处于一个快速发展的阶段,相应的,建筑行业也发展迅猛,主要体现在工程建设数量的不断增加和对工程建设要求的不断提高。当今,人们更加注重经济效益,更加注重投资
21世纪的人文社会科学,多学科交融,不同学科的研究方法互相借用,在此背景下,瑶族研究进入了丰盛期。本文选择学者关注度比较高的瑶族宗教、教育、变迁与发展、瑶族的国际化研
一、什么是探究性实验室探究性实验室是指能够充分支持学生进行多方面探究性学习的场所。探究性实验室与传统的实验室有着本质上的不同。在传统的实验室里,学生的实验主要是
文章介绍了VR项目模型制作的基本流程和制作的要求规范。并结合具体的实际情况和现有条件具体阐述了在本科教育项目实践课程教学中具体VR项目制作的经验和相关问题的解决方案
目前薄膜电容大部分使用聚丙烯或聚对苯二甲酸乙二醇酯作为电介质材料,这两种电介质材料熔点较低,且在高温时热收缩率和损耗角正切值较大,从而限制了该类薄膜电容器的使用环
位于湖南通道侗族自治县独坡乡的上岩坪寨是典型的侗寨。该侗寨的河流、井、鱼塘、消防渠、稻田等,共同构成水资源的活性系统。从当地水资源的空间分布和传统利用模式来看,侗