基于Flink的分布式推荐系统研究与应用

来源 :河北工程大学 | 被引量 : 0次 | 上传用户:guangtoucx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和网络技术的飞速发展,用户享受着越来越便捷的网络服务。但同时,“信息过载”问题也很快地暴露在人们的面前,有效的筛选信息从而提高效率的能力就显得尤为重要,推荐系统就能很好满足了人们的需求。面对着巨大且不断高速增长的数据量,传统推荐系统面临着计算效率低、实时推荐效果不佳、推荐方式单一等问题。具有分布式并行化计算能力的推荐系统就成了越来越迫切的需求。针对上述问题,本文使用新一代流式计算引擎Apache Flink作为多种推荐服务的计算平台,结合Hadoop、Hive、Flume、Redis、Zoo Keeper和Kafka等大数据开源技术构建分布式推荐系统。首先,在推荐算法上,对实时推荐算法进行改进和优化,在计算推荐优先级时融入时间衰减函数,反应用户喜好随时间的变化,考虑到一次评分中消极评分和极低评分的影响,融入用户近期评分,生成多个备选物品列表,在列表间加上时间衰减函数,生成最终的列表。在相似推荐中,通过电影的类型信息计算电影之间的相似度,融入TF-IDF加权算法对热门类型的权重进行调整。离线推荐选择使用基于交替最小二乘法(Alternating Least Square,ALS)的协同过滤算法,使用基于Flink的通用算法平台Alink,提升离线推荐算法在分布式场景下计算效率。数值实验的结果表明,使用基于隐含特征向量去计算相似度相较于使用基于特征属性的方式,在改进后的实时推荐算法的推荐效果上有明显的提升。改进后的实时推荐算法相较于原算法在准确率、召回率和归一化折损累计增益NDCG都有一定的提升,时间衰减系数λ为0.4时,准确率和召回率有较好的表现,而时间衰减系数λ为0.5时,归一化折损累计增益NDCG有较好的表现。其次,对分布式推荐系统的整体架构进行设计,利用Movie Lens开源数据构建电影推荐系统,包含了存储层、数据处理层、应用层和展示层。存储层以Hadoop为核心做分布式的存储;数据处理层使用Flink集群作为不同推荐服务的计算引擎;应用层包含了离线推荐服务、实时推荐服务、统计推荐服务和相似推荐服务,相应的推荐列表会被存入My SQL;展示层包含前端和后端两部分,并采用了Angular JS技术进行了实施,后端的业务系统则基本上完成了Java EE层面完整的服务逻辑,并利用Spring完成搭建。最终实现多种推荐服务相互补充的混合电影推荐系统。
其他文献
目的 分析叙事护理模式对妊娠糖尿病产妇分娩的影响。方法 选取我院收治的56例妊娠糖尿病产妇作为研究对象,将其按照随机数表法分为对照组(28例,使用常规方法护理)和观察组(28例,使用叙事护理模式)。对两组的护理效果进行分析。结果 两组患者在接受护理后均取得一定效果,但观察组在采用叙事护理模式后,其血糖控制情况、自我管理评分、饮食行为情况、治疗依从性、分娩情况、妊娠结局均优于对照组,差异均有统计学意
期刊
人类已经由基因组时代步入了后基因组时代。海量激增的蛋白质数据逐渐成为这个时代的特征,生物信息学研究发现蛋白质的功能和结构与亚细胞位置有很大关系,蛋白质转运到不同的位置(细胞器)能发挥不同的作用,因此急需一种根据亚细胞的定位来高效地分析蛋白质功能的方法。文章主要围绕这一主题,针对蛋白质序列的编码方法和分类预测算法两方面进行了相关研究和讨论,并在不同的数据集上分别进行了测试和分析验证。概括本文的主要创
学位
<正>《走月亮》是儿童作家吴然的代表作,本文是一篇儿童文学作品,也是一篇写景叙事小散文,全文充盈着“美”的要素,如诗似画,具有梦幻般的色彩,深受广大儿童群体的喜爱。该文语言优美,情感饱满,观察细腻,以“我”与阿妈在月光下行走,边走边对所见景色进行深情的描绘,表现了“我”对童年的回忆与怀念,具有浓浓的童真和童趣。“走月亮”是我国云南地区的民间俗语,指的就是在夜晚有月亮的地方散步、行走、赏玩,具有独特
期刊
本文报告研制了一种以感压气囊作为压力传感器、充气缚带捆扎夹板、气压表测定压力值、报警器自动报警,并具有按摩功能的小夹板监护仪。它能使夹板压力保持在既能达到固定效果,又不影响伤肢血液循环的相对恒定状态。临床应用55例,与传统小夹板固定组47例对比,并发症少,功能恢复好,有明显优势。
期刊
【目的】汽车灯是人与车、车与车之间信息交互的必要装置,在汽车智能化发展中有着举足轻重的地位。针对当前车灯存在信息传递能力较弱、信息交互不直观的缺点,本文提出了一种照明与信息显示融合的智能LED汽车灯。【方法】首先,提出了车灯光路改造及智能控制系统的总体设计,然后借助多物理场有限元仿真软件COMSOL对光路传输性能及可靠性进行了仿真分析及优化设计,最后根据仿真结果定制了透镜等关键组件并制作了车灯实验
期刊
针对可调色域技术领域中的传统三基色芯片光源存在的芯片光衰、温度特性不同、光谱不够连续以及五色光源工艺结构复杂等技术痛点,本文基于COB封装,对蓝光LED芯片表面采用荧光粉分区喷涂的方式,设计并制作了一款高显指色域可调的三基色COB LED光源。测试结果表明,通过调节每个区域芯片的驱动电流大小,改变三色光的发光强度能够实现智能调色。在色温为3 000~6 000 K时,选取的样品光源7个色温下的色坐
期刊
目的 探究非淀粉多糖对酶法制备高分支麦芽糊精黏弹特性的影响。方法 利用α-葡萄糖基转移酶(α-glucanotransferase, α-GT)和马铃薯淀粉制备高分支麦芽糊精,并对其分子量、分支度和消化性进行测定。采用动态流变仪分别测试黄原胶、桃胶、香豆胶、刺槐豆胶和魔芋胶5种非淀粉多糖对高分支麦芽糊精的增稠效果。选取增稠效果适中、稳定性高的香豆胶按不同质量比与高分支麦芽糊精混合,进行振荡流变测试
期刊
在当前大数据技术蓬勃发展的时代,人们对气象数据的实时处理、数据质量、数据存储及大规模查询等要求也越来越高。针对现有气象自动站数据业务落地环节多,任务处理耦合紧但系统部署分散等问题,文中基于Spark Streaming的流式计算框架,研究使用Flume解析收集自动站原始数据,在Spark Streaming中设计融入自动站数据质控算法,最终通过对分布式数据库存储的表设计,使气象自动站数据具备高效率
期刊
当前建筑业依旧是推动我国GDP增长的重要力量之一,但相较于其他行业,建筑业存在着建筑项目复杂,建设周期长,启动资金需求较高等特点。而且,伴随着社会的发展,科技的进步,各种新技术,新材料以及各种相关政策的出台,建设工程项目的风险也是朝着多样化以及复杂化发展。而建设工程施工合同的订立,是建设工程项目实施的前提和基础,因此如何防控建设工程施工合同订立过程中的法律风险,成为了建设工程顺利实施的关键。为了证
学位
随着我国经济社会的不断发展,人民生活水平和医疗水平都大幅提高,人口平均寿命明显延长,老年人口的大规模增长使我国养老问题面临着巨大压力。受到地区经济发展不平衡的影响,农村牧区养老问题更加严峻,老年人的养老环境及养老模式选择问题成为学者们的现实关照和学术旨向。在农村牧区人口老龄化高峰来临之前,为解决农村养老问题,农村互助养老逐步兴起,并得到了广泛推广。在传统乡村文化“互帮互助”的理念下,以地缘、亲缘为
学位