基于Spark实时推荐系统的研究与实现

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:caiyoutian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着5G的发展和6G的布局,网络数据呈现爆炸式增长,从“互联网+”到智慧城市,科技的不断创新与进步给人们的生活带来了很多便利。然而,随着数据量的日益庞大,人们获取信息难度也在增大,此时,推荐系统则可以帮助人们快速地找到感兴趣的内容和信息。如何高效精准地搜集到有效信息对推荐系统至关重要,而推荐系统的效率和准确度是依靠推荐系统的架构和推荐算法共同决定的。从现有的推荐系统来看,首先,早期的Hadoop框架虽然能够满足用户对海量数据存储和离线训练精准度的要求,但是随着数据量的不断增加,Hadoop的Map Reduce处理速度明显降低,很难满足推荐实时性的需求。然而Spark作为大数据处理分析引擎,却能较好地解决磁盘读写速度慢的问题。然后,基于Lambda框架构建的实时大数据处理框架,虽然有较高的稳定性和容错率,并且能够把实时计算和离线预测计算分开,但是由于数据量级越来越大,数据汇总越来越困难且会产生大量的中间文件,因此服务器存储压力大大增加。此外,当短时间内用户行为发生较大变化时,推荐的准确率也会大大下降。第三,在现有的协同过滤推荐算法中,主要解决离线状态下的推荐预测,虽然离线预测的准确率较高,但是当用户偏好改变时,需要重新构建相似度矩阵,重新计算时间会大大延长。最后,虽然目前的推荐算法会根据不同时间段给予不同的信息推荐,但是在当前新冠疫情大流行背景下,推荐系统中未考虑到推荐信息是否符合当前疫情防控准则。因此,如何较好地实现实时推荐并优化推荐结果成为当前推荐系统的重要难题。针对上述问题,本文针对大众点评应用深入研究实时推荐算法和推荐系统架构,在此基础上学习Spark生态圈相关知识,最终设计并实现了基于Spark实时推荐系统,具体实现步骤如下。首先,通过分布式爬虫获取大众点评相关数据并使用Canal监听My SQL日志,构建Kafka消息队列消费实时应用数据。然后,将实时计算的结果存储在My SQL数据库中并同步Elasticsearch索引。最后,研究分析Lambda架构和Kappa架构的优缺点和使用场景,优化Kappa架构数据分析能力,并提高推荐的准确性和实时性。本文具体工作主要有以下几点:(1)为了提高数据获取效率,设计并实现了基于Docker容器的分布式网络爬虫,并且比较了分布式爬虫在Docker容器中和VM环境下运行效率。(2)详细分析实时推荐系统的功能需求,比较不同实时推荐系统架构的优缺点,最终构建基于Spark的实时推荐系统。首先,该系统基于Docker构建分布式爬虫获取大众点评数据;然后,使用Kafka消息队列,在消费爬虫数据的同时也作为实时数据流缓存模块;最后,利用Spark Streaming流处理技术进行实时计算,满足实时推荐目的。数据存储和随机访问使用My SQL数据库,并结合使用Redis数据库作为数据缓存提升系统性能。此外,使用Redis去重机制提高爬虫效率。(3)针对疫情因素对推荐结果的影响,研究ELK相关技术并基于Elasticsearch搜索引擎,结合当前实际疫情准则对召回策略进行测试和调整,优化实时推荐结果,并将最终推荐结果展示在Web前端。(4)研究Online-Learning算法(Follow The Regularized Lead)FTRL,优化数据稀疏性问题和冷启动问题,然后通过对爬虫获取的数据集进行实时推荐功能和性能的测试,最终实现本实时推荐系统预期设计目标。
其他文献
研究目的 本研究探究在新冠病毒肺炎疫情防控常态化下,延庆区医务人员心理弹性的特点,探讨影响医务人员心理弹性的相关因素以及心理弹性在领悟社会支持、应对方式、工作幸福感中起到的作用,为医务人员实施有针性心理弹性培训及干预提供理论依据。研究方法本研究是一项横断面研究,应用自定义人口学变量问卷、领悟社会支持(PSSS)、简易应对方式量表(SCSQ)、心理弹性量表(CD-RISC)、工作幸福感(JWS)、马
信息时代给我们的生活带来了极大的便利,在大数据背景下,让我们生活中的点点滴滴都被持久的记录了下来。电子钱包,电子商店,电子医疗等越来越普遍,但是,人们的隐私随着电子记录得越详细,隐私越容易被人泄露,给我们生活造成不便。当前,大部分客户数据保存在云服务器中。云环境的数据安全自然也得到了大家更多的关注,因此在加密条件下的搜索技术和更新技术也变得非常热门。对称可搜索加密技术因其在加密数据上支持搜索且效率
随着世界能源危机和环境污染问题的日益严重,清洁能源的开发利用已成为解决能源危机和环境污染的一种选择。传统电网的安全缺陷使得分布式发电技术得到了广泛的应用。微电网由多种分布式单元组成,具有高能效、分布式单元灵活安装以及节能减排的理念,可作为传统电网的有力补充。但是,诸如能量管理、运行控制和优化调度等问题尚未完全解决。其中优化调度可以提高微电网的经济性、环保性和稳定性,因此对微电网优化调度的研究具有重
在国家乡村振兴政策的影响下,国内经济相对发达地区的乡村民居建设发展迅速。常州环西太湖地区位于江南经济发达区,乡村民居建设得到了相应的发展,但是过于模块化和城市趋同化的民居设计,不利于其长远发展。探索一条合理的乡村民居设计之路很有必要。本文分析常州环西太湖地区自然环境条件、社会状况、传统文化等方面对乡村民居设计的影响,从而得到了一些有利于乡村民居设计的建议。
近年来信息与科技的快速发展,使得光传输技术逐渐发展为国家通信网络的研究重点。各种通讯设备如雨后春笋般出现,领域中也有了一些研究成果,能进行设备通信和异常结果的处理。广泛应用于金融、学校、轨道交通、医疗等领域。随着光传输设备应用领域的扩大和对设备通信质量的要求越来越高,目前的光传输设备网元软件系统在可靠的数据传输、主控对线卡管理、问题实时定位等方面还存在着不足。首先,当前的设备硬件通信方式众多,70
学位
目的:观察护理专案管理在老年心血管病静脉留置针患者中的应用效果。方法:选取136例老年心血管病静脉留置针患者为研究对象,按照随机数字表法分为研究组与对照组各68例。对照组给予常规静脉留置针护理,研究组在对照组基础上予以护理专案管理,比较两组穿刺1次成功率、留置针堵管率、非计划拔管率、留置针固定规范率、平均每针留置时间和并发症发生率。结果:研究组穿刺1次成功率为98.53%,明显高于对照组的79.4
在过去的几十年中,有毒、易燃易爆等有害气体的排放导致严重的空气污染,对环境和人类健康均造成极大危害。为实时监测空气质量,气体检测技术在科学和工业领域引起了广泛的关注。此外,气体传感器还广泛地用于医疗和食品安全领域。电阻式气体传感器以其出色的感测特性以及低成本、易于制造和简单测量的优势而受到广泛欢迎。其工作原理基于气体与敏感材料的表面反应所引起的电阻变化。敏感材料在决定传感性能方面起着至关重要的作用
目的:探索与研究集束化干预策略在预防静脉留置针堵管中的应用。方法:选取2018年1月至2018年5月在我院住院部进行静脉注射时行留置针的共计132例患者,进行随机分组,分为人数相似、年龄相仿的两组。实验人员对于对照组66名患者采取常规护理的方案,对于观察组66名患者则是采取集束化干预策略进行护理,护理完成后对比两组人员在静脉留置针的堵管情况,研究并统计静脉留置针堵管的发生率。结果:由常规护理组的对
近年来,随着电子商务的不断发展,越来越多的人习惯性的在网上购物。为了吸引顾客,商家会经常性的在其电商网站上推出一些秒杀抢购活动,其能够在短时间内吸引大量的顾客前来购买。为了避免访问服务器超时、响应速度过慢等问题,同时也尽可能的为商家减少损失,设计研发出一款性能优良的电商秒杀系统,对于企业来说具有重大的意义和商业价值。本文以此为研究目标,设计并实现了基于微服务架构之电商秒杀系统,主要的研究内容如下: