基于Spark大数据处理的协同过滤推荐系统研究与实现

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:lkajdofaief
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
推荐系统就是用来为用户推荐满足其需求或者服务的系统,能够作为用户与信息之间的纽带,提供给用户切实需要的信息。但是在推荐系统发展的过程中,也存在一系列的难题需要解决,例如系统响应速度问题,推荐结果准确度问题以及海量数据的处理与分析等问题。为了解决以上问题,需要对推荐系统进行不断的研究和升级,推荐系统需要保证较好的扩展性,能够随着业务需求的不断变化对系统进行调整和更新。另外还需要采用大数据处理相关技术来解决推荐计算过程的效率问题。Hadoop及Spark分布式处理平台是解决大数据处理的重要方案,能够通过分布式的计算与处理实现对海量数据的管理与分析。推荐算法是推荐系统的核心,推荐算法面临的最大问题就是用户-项目评分矩阵的数据稀疏性。在实际应用中,随着用户和项目的数目增加,用户-项目评分矩阵的稀疏度往往会超过97%,数据稀疏性成为了影响推荐准确度的最大问题,因此必须采取一定的方法来降低稀疏性对推荐结果的影响。此外随着数据量的不断增加,对于数据的处理过程也变得更加复杂。为了解决以上问题,本文对基于项目相似度传递的协同过滤算法进行了改进,用以解决数据稀疏性的问题,结合改进的隐语义计算模型,提高推荐结果的准确性,并通过实验证明了算法的有效性。论文首先描述了课题研究的背景及国内外研究现状,随后讨论了协同过滤算法的相关情况,分析了Spark大数据处理框架的相关技术。本论文的主要课题是从相似度传递和语义分析算法两个方面来改善推荐效果。在分析完相关算法之后,本文从推荐引擎总体框架、推荐引擎核心模块框架和推荐引擎设计三个部分对本系统进行了分析设计。为了证明推荐算法的有效性,本文还进行了大量的实验和测试。最后,本文利用所设计的基于Spark的大数据推荐引擎系统,结合电影网站推荐的现实情况,实现了一个电影网站的推荐系统。事实证明,基于Spark大数据处理的系统过滤推荐算法在电影网站上的应用取得了较大的成功,该研究具有良好的研究与应用价值。
其他文献
<正>作为世界性难题,美国的医疗投入占GDP的15%~17%,仍没有解决好这个问题;日本、加拿大等国投入约为GDP的10%,但仍有效率上的问题。作为新兴经济体,中国目前对医疗卫生事业的
随着世界经济发展区域化、全球化的加强,以及电子计算机技术、网络技术在金融领域的推广和普及,金融创新表现出新的发展趋势,改变了金融产品、金融业务、金融体系的传统理念,
电催化析氢和电催化还原二氧化碳是减缓能源危机和全球变暖的有利措施。但目前用于析氢反应和还原二氧化碳的电催化剂仍存在着活性位点少、导电性差、过电位高等缺点。在众多
分析不完全信息下患者就医行为与医生诊疗决策过程,据此构建患者首诊二三级医院与医生诊疗策略的演化博弈模型。其次,运用Matlab对影响患者首诊决策和医生诊疗博弈系统均衡的
诗歌发展至唐朝,由于近体诗的出现,唐之前那些不讲求声律的诗歌才被划分出来,统称为古体诗,在这之前,古体诗有“形”但无“名”。受到唐朝社会文化环境的影响,近体诗成为了当时诗歌创作的主流,在文学发展的进程中后来居上,成长十分迅猛,因而,致力于此的诗人也就相对较多。但是古体诗在这时却也并非就此销声匿迹,而是进行了一番变革,并且以新的姿态出现的诗坛上。王维的近体诗在古今诗歌评论中都备受赞誉,但王维却不单单
"大数据"是信息革命高潮的产物,它已经渗透到当前诸多的领域当中,大数据也为当前的审计工作带来了一系列的问题和挑战。文章简述了大数据的一些基本特征,分析了大数据对于当
该文使用灰色系统理论对地区经济发展过程中城市化与产业结构之间关系进行了因素关联分析研究,并以浙江城市化与产业结构为样本,提出作为社会经济的一个子系统城市化与产业结
本文是作者在攻读应用数学专业硕士学位期间部分研究成果的总结.全文围绕若干数学物理问题的定性分析展开讨论。 从研究意义看:第一章讨论了一类偶数阶椭圆型方程的边值问
阿朱对爱情的追求既是悲壮的,也是崇高的,她对萧峰的感情既有对英雄的仰慕与痴爱,同时,又隐隐流露出对于父爱的潜意识渴望。对阿朱来说,爱情重于生命,其放弃生命之举像是经历痛苦思
目的:探讨甲状腺影像报告和数据系统(Thyroid Imaging Reporting and Data System,TI-RADS)分级对诊断甲状腺癌中的应用价值。方法:选择甲状腺结节患者75例并进行外科手术或