基于Spark的协同过滤算法的改进与实现

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:wri666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网、物联网、云计算等技术的快速发展,全球数据量呈爆炸式增长,大数据时代已经到来。“信息过载”是目前人们所面临的主要问题,在电商、音乐视频、新闻等领域频发这种问题。个性化推荐引擎是信息过滤的一种手段,在解决信息过载问题中具有重要的研究与应用价值。个性化推荐最常使用的推荐技术是基于协同过滤的推荐技术。但传统的协同过滤算法存在一些问题。为克服这些问题,本文对协同过滤算法进行改进,同时为了实现海量数据的处理,需要推荐系统结合大数据处理框架。Spark作为新一代的计算框架,非常适合迭代计算和流处理。因此,将Spark作为推荐系统的计算框架再合适不过。首先,针对传统协同过滤推荐算法在数据稀疏的情况下存在的性能缺陷和相似性度量方法的不足,本文改进得到一种基于多层次混合相似度的协同过滤推荐算法。该算法结合用户评分相似度、用户兴趣相似度和用户特征相似度等三个层次来度量用户之间的相似度,同时根据用户评论数量来动态调整权重,此外还改进了推荐策略。实验结果表明改进后的算法提高了用户的推荐精度,有效地缓解了这些问题所带来的影响。其次,为新用户和老用户提供了不同的推荐服务,老用户采用改进的算法和ALS算法来实现推荐;新用户则根据用户提供的信息采取不同推荐策略来实现推荐,同时解决了算法本身存在的冷启动问题。为更好地结合Spark平台,将这些推荐策略都并行实现,设计出了基于Spark的推荐系统。最后,对于推荐系统来说,能更快更好地提供推荐服务至关重要,为模拟实时推荐的过程,本文将Kafka集群作为消息的生产者,用于生产简单的用户信息,Spark Streaming流处理框架作为消息的消费者,为用户提供实时推荐服务,通过模拟实验,证明了系统推荐模块具有实时性。
其他文献
  本文通过对世界范围内引航员引航过程中人身安全事故的分析,各种情况下引航员登离船时面临的各种风险,引航员上下船时的登离设备,尤其是引航艇安全靠离它船时的操作方法及引
目的探讨医护患协同合作模式对原发性高血压患者服药依从性和血压控制的影响。方法选取2018年1—9月在四川省第四人民医院住院的280例高血压患者,按随机数字表法分为对照组和
中华人民共和国国家标准高倍数、中倍数泡沫灭火系统设计规范GB50196-93条文说明制订说明本规范是根据国家计划委员会计综[1989]30号文的要求,由公安部负责主编,具体由公安部天津消防科学研究所会
蛋白质的亚细胞定位与蛋白质的结构和功能密切相关,本文基于蛋白质的结构与其功能的联系,从蛋白质的氨基酸序列出发,提出了预测蛋白质亚细胞定位的离散量、离散增量和离散有限系
运用溶胶-凝胶原理在聚偏氟乙烯膜表面涂覆二氧化钛胶体颗粒,来改善膜表面的亲水性,延缓膜表面污染时间。通过膜通量、接触角的测定,扫描电镜的观察,得出改性膜既能保持原来
为了揭示大白菜BrROP基因家族的功能和进化关系,利用生物信息学方法对大白菜BrROP基因家族成员进行了鉴定,并对其基因结构、蛋白质序列、染色体定位、保守结构域、进化关系和
长期以来由于规模变量、距离衰减系数取值缺乏依据,引力模型在城市研究中的应用容易受到质疑,加之中国城市的多中心化使得模型应用的外部条件发生改变,模型验证工作的必要性
以2010—2015年央视新闻联播为研究对象,研究了投资者关注对股票收益率的影响。本文发现:(1)新闻联播报道后公司股票短期收益率上升,然而,长期反转,超额收益不显著;(2)机构投资者持股比
<正> 证候的“转化”是指一种证候转变成为性质截然相反的另一种证候,后一种证候出现之后,前一种证候即随之消失。高校教材在八纲辨证虚实转化中所举的实证转虚; “高热、口
刘诗昆是迄今在国际钢琴比赛中获奖级别最高的华人钢琴家。他曾是叶剑英元帅的女婿,为此,他在"文革"期间被迫离婚,关押在狱中近6年。出狱后,他重获艺术新生。1979年,世界著名