基于Spark的混合协同过滤推荐系统的研究与实现

来源 :燕山大学 | 被引量 : 0次 | 上传用户:Answerallen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今,随着互联网的开放式发展,互联网中的信息已经开始指数级的增长,信息过载的问题愈发严重。如何在大量的信息中筛选出用户需要的信息成为当今互联网急待解决的问题。推荐系统就是在这样的背景下诞生的,推荐系统能帮助用户挖掘海量数据里深层次潜在的信息,帮助用户快速获取需要的内容,从而被广泛应用。随着推荐系统的发展,其核心的推荐算法也层出不穷。因此本文选择推荐算法作为研究的重点之一。首先,分析了在推荐算法中比较成熟的协同过滤。然而协同过滤技术中,由于其过度依赖于用户项目的评分矩阵,在有效数据不足的条件下,由于数据稀疏推荐系统的准确度会随之下降。本文为解决协同过滤技术中的评分矩阵的稀疏性问题,采用了基于ALS的矩阵分解算法,将稀疏的评分矩阵分解为稠密的特征矩阵,从而解决了矩阵稀疏性的问题。另一方面,由于单个推荐算法在面对复杂的应用环境时,推荐效果往往无法让人满意。本文采用结合了用户协同过滤与项目协同过滤的混合协同过滤推荐算法,通过动态调整算法权重,保证算法的即时性。通过实验的比较可以得出,本文设计的混合推荐算法对比传统的协同过滤具有较好的准确度。其次,对目前混合推荐算法的特点进行分析,虽然混合推荐有较好的准确性,但是算法过程的融合导致算法复杂度增加。因此本文将推荐算法与Spark分布式平台进行了结合,将推荐算法中复杂的相似度计算过程进行并行化,提高了算法的计算效率。通过Movie Lens的数据集合实验证明,混合推荐算与Spark分布式平台具有比较好的并行性能,同时也凸显了Spark分布式平台的优势。最后,通过深入的研究了推荐算法和分布式平台的相关知识后,针对协同过滤的问题提出了并行混合协同过滤推荐算法,并将算法与Spark分布式平台相结合,提高算法运算效率。实验证明,混合推荐算法与Spark分布式平台的结合具有较好的推荐质量和较高的运算效率。
其他文献
<正>膝骨性关节炎疼痛与中医古籍所记载的"尪痹"、"骨痹"等相似,其致残率高,属难治性疾病。多发生于老年人,属筋骨罹病。中医治疗痹证历史悠久,经验丰富。尤其辨证治疗,具有
雾霾天气越来越严重,造成监控设备采集到的图像质量受到严重退化,大大降低了系统的实用性。现在视频透雾系统,一般采用光学透雾镜头或者电子透雾设备(多采用一体化机芯),但是
机器人在制造业、军事侦察、安全消防、交通疏导、社会基础建设、医疗机械等多个领域有广泛的应用。个体机器人技术已经满足不了快速变化需求,多机器人技术在这种需求环境下
针对油气田生产过程中产生大量硫酸钡垢严重影响采油作业的现状,以水为溶剂,过硫酸铵为引发剂,马来酸酐(MA)、丙烯酸(AA)和醋酸乙烯((VA)为单体合成了MA/AA/VA三元共聚物阻垢
生产测井资料是稳定流动状态下生产井生产动态的物理响应,它不仅直接反映了生产井的生产状况,而且反映了井内各产层和地层中流体参数及其变化。文中详细介绍了用生产测井资料
石头以其丰富多样的形态获得了中国人的独特钟爱,在中国几千年的文化演进过程中,逐渐建立起了赏石这一独特的文化传统。石头不仅仅成为中国传统审美符号之一,更成为中国人独
在经济发展的带动下,管理会计工作越来越重要。随着经济社会的发展,中小型企业在我国的发展中占据了非常大的比值。在企业管理中,对会计人员的素质要求也在逐渐提升,不仅仅要
奥运会是全球最顶级的体育赛事,也是体育文化发展到一定阶段的最高体现。高校校园体育文化是体育文化的重要组成部分,每届奥运会都会令高校校园体育文化增添新的要素,引领高
质子交换膜燃料电池的阴极催化剂主要为铂基催化剂,由于其价格昂贵,严重制约了燃料电池的商业化进程。因此,亟需开发一种低成本、高氧还原活性及稳定性的非铂催化剂。二元硒
采用井窖式移栽的方法来解决移栽深度不够、移栽劳动强度大、移栽效率低、栽后还苗期长、移栽苗成活率不高等生产问题已成为烟草行业很多学者的关注点。目前,关于井窖式移栽