基于Spark的推荐系统的设计与实现

来源 :上海工程技术大学 | 被引量 : 0次 | 上传用户:shenlixi44
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的迅猛发展,使得互联网用户生产和面临的数据不断增加,从而使得人们面临“信息海洋”的困境。因此推荐系统应运而生,成为帮助用户在海量信息中过滤有效信息的首选方式。在推荐系统的实际应用中,由于原始数据高维稀疏,用户或物品相似度计算片面以及推荐结果实时性差等问题,使得用户的体验并不良好。本文为了更好地优化推荐系统,以大数据处理技术为基础对推荐系统的系统架构和推荐算法两方面进行改善。在推荐系统架构方面,以分布式系统架构Hadoop为基础,结合分布式存储系统HBase以及大数据计算平台Spark共同构建基于大数据平台的推荐系统。在推荐算法方面,通过综合分析各个推荐算法的优缺点及应用场景,提出了基于F2-LSHT模型的协同过滤推荐算法。本文研究的主要内容包含以下几个方面。第一,推荐系统和大数据处理技术的研究。本文首先详细探讨了推荐系统在系统架构和推荐算法方面的相关理论,为后文的系统设计及算法改进提供理论基础。然后,针对目前最为流行的两种大数据处理框架Hadoop和Spark进行深入剖析和对比,再结合推荐系统自身的特性,将两种大数据处理框架各取所长,设计出以Spark on Yarn为计算核心的大数据推荐系统,该系统具有高可用性、计算快速、维护成本低等优点。第二,数据采集系统的优化。本文通过自定义Source组件的Flume采集离线数据,Nginx直连Kafka的方式采集实时数据,两条采集线路为推荐系统的不同数据源提供了稳定、快速和易扩展的数据采集系统。第三,Spark核心组件分析,协同过滤算法的改进研究。首先探讨了Spark的核心组成技术Spark Core、Spark SQL、Spark Streaming、MLlib在实际应用场景下的综合使用方式。然后深入讨论了基于改进协同过滤算法的推荐系统,通过对用户数据的多维分析,确立了基于F2-LSHT模型的协同过滤算法,并结合Spark API予以实现。第四,搭建基于Spark on Yarn的推荐系统实现数据采集、数据存储和数据分析。首先将音乐推荐系统实验数据集Audioscrobbler输入到数据采集系统的源端,然后以推荐系统的计算核心Spark不断拉取采集到的数据并以Spark Streaming完成数据的异常处理和格式规整,最后将规整的数据输入改进的协同过滤算法计算推荐结果,为用户做出推荐。该推荐系统对于大多数业务场景具有良好的适用性和推荐性能,能够为互联网公司实现精准营销提供依据,并为后续研究推荐系统的人员提供一定的指导意见。结合本文推荐系统的性能表现可知,以Hadoop分布式系统架构为基础,再结合大数据计算平台Spark所构建的大数据应用方案,可以轻松应对海量数据的存储和计算。基于F2-LSHT-CF模型的协同过滤算法可以更加精准地实现推荐服务。
其他文献
“新文科”建设为包括影史类在内的所有艺术学专业课程提出了新的研究课题。在文理交叉、学科融合以及新技术融入的大背景下,无论是作为专业基础课还是艺术类通识课的影史类课程,始终应当秉承教学理念上的融通之道,在知识话语体系中融通不同学科背景和民族电影艺术理念;在教学功用方面融通树立文化自信的“思政”内涵和提升审美能力的“美育”目标;在课程传播路径上融通互联网和新媒体技术,方能更好地响应政策号召,积极应对建
在我国市场经济不断发展的当下,社会各领域开始注重人与自然的和谐相处,可持续发展成为我国社会发展战略。环境保护人人有责,应提高人们对生态环境治理保护领域的关注度,将环境保护原则渗透到社会各领域中。为此,需做好森林资源调查监测,借助现代化信息技术做好环境保护,实现社会可持续发展。对森林资源调查监测3S技术内涵以及森林资源调查监测技术对环境保护的作用进行详细分析,以龙口南山国家森林公园为例分析森林资源调
本文以3-甲基环十五烯酮为原料,在催化剂、加压、升温、搅拌等条件下,通入高纯氢气反应合成麝香酮。利用气相色谱仪、气质联用仪、红外光谱分析仪和核磁共振波谱仪等仪器进行检测,表征合成样品。采用单因素方法考查了3-甲基环十五烯酮催化加氢反应中催化剂种类、反应温度、反应压力、搅拌速度等对产率的影响。结果表明,以钯碳作为催化剂,反应压力2.0 MPa,反应温度90℃,搅拌速度为1100 rpm,反应时间为1
阅读能力是一项必需且重要的能力,在人的发展中处于基础和核心的地位,尤其对于小学生来说,阅读能够促进其智力、道德和审美水平的全面发展。面对错综复杂的图书海洋,如何推荐与学生所处学段阅读能力相匹配的课外图书成为摆在广大教师和家长面前的难题。分级阅读能够为破解这一难题提供思路,分级阅读的目的就是将读者所处学段的阅读能力和文本难度相适应,针对英语的分级阅读测评体系如Lexile阅读框架和A-Z分级法等经过
我们常说的乡土文化主题研学是新时期教育与教学环境下的一种历史延续体验,是构建学校特色课堂的重要途径,论文以寻乌县本土文化为媒介,以我校开展的特色地理研学为例,开展了一系列的研究与探索,由此提出了要构建富含江西省地域特色的高中地理研学实践体系,希望能够在这样的活动中巩固学生对地理知识的掌握,并逐步提升学生的地理学科核心素养、国家情怀以及自我认识。
“高考难,填报更难”一直是每一个高考家庭面临的重大问题。繁多的院校和专业信息、每年高考政策的改革以及各院校招生计划的变动让高考志愿的填报困难重重。如何从如此繁杂且庞大的信息中提取出符合考生个人情况的相关信息是亟待解决的问题。随着互联网技术的日新月异,推荐技术也得到了巨大的发展。本文针对高考志愿填报中难以选择合适院校和专业的问题,设计并实现了基于混合推荐的高考志愿推荐系统。本文主要研究工作如下:(1
情感分析是自然语言处理领域的一个分支,近年来引起了广泛的研究与关注。但是对于某些特定语料,通用的情感分析模型往往达不到最佳的分类效果。对于短文本情感分析任务,短文本的语言表达简短、语义稀疏、携带的特征少,现有的网络模型从短文本中学习到的语义特征不足。对于句子级的情感分析研究,Bi-LSTM无法获取不同词对情感的贡献,也无法从多方面获取语义,并且训练时神经元无法并行计算,同时对于较长的句子容易丢失语
对于城市轨道交通企业而言,去正外部性是集团化的内因和目的,结合内部审计新趋势,通过对集团化过程中出现的典型审计问题的分析与优化,提出动态化和全过程审计链的内部审计优化研究新思路,在实践应用中取得了良好效果。
目的 利用真实世界数据,从药物有效性、安全性和经济性角度出发,利用社会网络分析研究医师用药习惯,为按疾病诊断相关分组(DRG)付费下合理用药提供思路。方法 选取2021年1月1日—6月30日某三级甲等综合医院出院患者信息,基于DN-DRG分组器,获取甲状腺大手术组(KD19)所有合并用药,绘制整体网络关系图,根据凝聚子群网络的树形图开展用药方案优化。结果 共纳入80种常用药物,通过对1 681例甲
图书馆是每个高校的核心教辅机关,是师生学习提升学习能力的重要场所。面对数以百万计的图书时,师生往往难以找到合适的、真正需要的书。检索主页热门TOP-N推荐书籍对于个人需求过于笼统,不能起到针对性效果。为此,个性化的推荐系统是高校图书馆发展的新方向。传统的推荐系统主要基于学生借阅记录的情况进行的协同过滤推荐,或者挖掘书籍间相关性TOP-N推荐,可以面向大众。但对于特定的群体——相同专业不同学习层级、