基于MapReduce的协同过滤推荐算法研究

被引量 : 8次 | 上传用户:oo2009123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,Internet已成为包含海量信息和用户的复杂网络,为全世界人们传递和共享信息。然而,海量的信息资源导致了“信息迷茫”和“信息过载”等问题,使人们常常在信息的海洋里迷失方向,越来越难以准确、高效地获取自己需要的信息。为此,个性化服务技术应时而生。推荐系统作为一种成熟的个性化服务技术已在社区交友、电子商务和科学研究等领域得到了广泛的应用。常用的推荐技术包括:协同过滤推荐、基于模型的推荐、基于内容的推荐和混合推荐。其中,协同过滤技术因其推荐精度高、实现简单、易于用于实际系统而备受青睐。然而,除了稀疏性和冷启动问题外,经典的协同过滤算法,另一个最大的缺点是可扩展性问题,即随着商品和用户数量的增加,计算时间迅速的增加,影响了推荐的实时性。本文针对协同过滤推荐算法的可扩展性问题,从项目或用户向量的表示方法人手,剖析了对象属性严格匹配的缺陷,提出了基于均模型的协同过滤推荐算法。另外重点考察了系统的运行模式,设计实现了一种新的基于MapReduce分布式框架的协同过滤推荐算法。本文的创新点主要有两个,一是采用均模型来表示项目或用户的特征,该模型通过抽取项目或用户的关键特征,适当浓缩向量的长度,为在大规模数据集上进行高效、实时的推荐提供支持;二是通过评测经典协同过滤推荐算法的关键步骤,找到了适合用于MapReduce编程模式改进的方法,并基于Hadoop实现原理选用合适的Map与Reduce方案,将基于均模型的协同过滤推荐算法的三大关键步骤所涉及的数据表达、计算等问题转换为Map或Reduce操作,实现了算法的并行化。本文采用的检测数据是Grouplens提供的MovieLens100k、MovieLens1M、MovieLens10M三个数据集,主要从算法精度和运行时间两方面对经典基于项目的协同过滤推荐算法、基于云模型的推荐算法和基于均模型的协同过滤算法进行了对比实验。实验结果表明:基于均模型的协同过滤推荐算法在确保精度的前提下,能有效缩短项目相似性计算时间,易于处理大数据;基于MapReduce的协同过滤算法使推荐系统具有了更强的并行能力以及可扩展性和容错性。最后为证实本文所提算法的实用性。设计实现了一个基于上述方法的原型系统,并对其进行了评测。
其他文献
<正>央行在近期下发的相关文件中明确要求金融机构要积极探索做好城镇化建设的各项金融服务,并点名支持国开行、农发行积极探索该项金融服务模式。央行提出,要充分认识城镇化
公路工程路基路面压实施工属于公路路面施工的后续环节,同时也可以保证公路施工质量最优化。将公路工程路基路面的工作质量提升到一定的程度,不仅可以保证路基路面质量,同时
李伟研究员认为否定斯大林和"斯大林模式"是苏联亡国的根本原因。这样的论断过于简单化。苏共垮台、苏联解体的原因错综复杂,但根本原因是不能突破旧经济政治体制的束缚,最终
苹果花果管理是苹果优质、高效栽培技术重点环节,综述了花果管理技术的实施方法、技术效果以及对花果和品质发育的影响,主要包括疏花疏果、保花保果、提高果实品质、果实采收
人类的记忆总是遵循着失忆与记忆、再现与重塑。在社会信息化高速的发展过程中,人们的记忆的保存与传播塑造着社会的文明。2008年,一场前所未有的灾难在汶川爆发,摧毁了汶川人们的美丽家园。在中国人民“万众一心,众志成城”的意志中,克服了这场灾难,汶川人站起来了,2018年汶川正值汶川地震十周年,关于汶川地震的记忆又被大众媒介再一次再现和重塑。在媒介记忆视角下,本研究选取了人民网作为研究对象,选取了人民网
钢材在现代社会建设,尤其是机械制造等领域发挥着重要作用,其性能的进一步提升也因此引起了广泛关注。基于此,文章以低碳钢淬火发蓝工艺作为分析对象,就该工艺下的主要方法、
《刑法修正案(八)》对刑法第五十条的修改,标志我国刑法建立了全新的死缓限制减刑制度。但是,在司法审判实践中存在对该制度适用不当的问题,即以判处死缓限制减刑替代死刑、
数字化故事叙述是一种交流经验与分享知识的学习方式。教师要研究初中英语课程中数字化故事叙述的应用以及数字化叙述的定义,分析初中英语课程设计中数字化故事叙述的原则,着