基于Spark平台的协同过滤推荐算法的研究与实现

被引量 : 0次 | 上传用户:codemachine
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和信息技术的迅速发展和广泛应用,各种信息呈现在我们面前。面对日益增长的数据量,如何从中获取所需的信息已经成为一个非常严峻的问题。推荐系统是解决这个问题的有效途径之一,它可以通过分析用户的历史行为和偏好信息,建立模型,进行个性化的推荐。但是,现有的协同过滤推荐算法在推荐过程中暴露出许多问题,尤其是当用户和物品的数量不断增加时,推荐性能急剧下降。本文对协同过滤推荐算法进行了分析,并总结了各种算法的优缺点。针对现有算法的不足,提出了一种基于物品和Slope One的协同过滤推荐算法。该算法的核心是将物品间的相似度和Slope One算法结合进行评分预测。首先,用Slope One算法预测部分用户对物品的评分,填充评分矩阵,这样既可以解决数据稀疏性问题,又可以将预测结果作为最终结果之一。然后,将原有数据集和预测数据集结合形成新的数据集,计算物品间的相似度和平均偏好差异值矩阵。接着,用物品间的相似度作为Slope One算法的权值进行评分预测。最后,通过参数训练将两部分结果按不同比例结合形成最终的预测评分。为了提升改进算法处理海量数据的能力,本文在Spark平台上实现了Slope One、相似度算法以及改进的协同过滤推荐算法。同时,本文还在Hadoop平台上实现了改进的协同过滤推荐算法,方便比较两种分布式平台的运行效率。在标准的MovieLens数据集上进行了多次实验,实验结果表明,本文提出的基于物品和Slope One的协同过滤推荐算法能够提升推荐系统的预测精度。同时,与Hadoop平台相比,基于Spark平台的协同过滤推荐算法更适合处理海量数据。
其他文献
建筑行业不断发展革新,高性能材料层出不穷,活性粉末混凝土(Reactive Powder Concrete,RPC)自20世纪末进入中国之后就得到了飞速的发展,RPC是一种超高强、超高性能的新型混凝
美国是世界上孔子学院数量最多的国家,然而自2017年美国总统换届以来,美国对华策略发生较大变化,美国孔子学院的发展受到前所未有的挑战。本文分析新形势下美国孔子学院面临
<正>稻纹枯病是早稻一种常见多发病,多发生于高肥田、密植田,是水稻中后期的主要病害,发病重的田块可减产25%以上。防治措施有:1、打捞菌核、减少菌源。纹枯病的菌核在土壤中越冬,
基于模拟退火算法与系统聚类法,文章首先依次介绍了仅纵切、既有横切又有纵切、双面打印三种情形下的碎纸片拼接复原要点,然后对全文进行了总结与展望。
目的:彩色多普勒与剪切波弹性成像(SWE)对软组织肿瘤的诊断价值。方法:对42例软组织占位患者进行超声检查,与术后病理进行证实。常规超声检查得到肿物的定位,观察其形态规整
对 PG型加压过滤机过滤轴及分配阀的结构进行了分析 ,并对其几个主要参数进行确定及结构设计。结论指出 :新型、高效、低耗、使滤饼产品达到低水分的 GPJ型加压过滤机及高效
2011年国家版《小学英语课程标准》指出:基础教育阶段英语课程的总体目标是培养学生的综合语言运用能力。综合语言运用能力的形成建立在学生语言技能、语言知识、情感态度、
化学三重表征是指人们依靠化学宏观物质世界为媒介来呈现可感知的宏观化学知识;依靠现代科学技术手段所展现出的模拟景象为媒介来呈现需想象的微观化学知识;以化学符号语言来呈
依据勒弗维尔的理论,翻译是一种改写,受到意识形态、赞助人、诗学等因素的影响。其中,意识形态是最重要的操纵因素之一。 本文主要通过对密西尔长篇巨著Gone with the Win
随着全球化进程的纵深发展,中国已成为世界最大货物贸易国。出入境检验检疫机构作为一道国门,肩负着保障出入境人员健康与安全、防止疫情疫病传入传出、保证进出口商品质量、