基于Apache-Flink的增量协同过滤算法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:lrg123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着当今世界的互联网的迅速普及以及数据量的急剧增加,用户越来越难从海量数据中寻找到对自己有用的信息。为了帮助用户快速寻找到有用的信息,个性化推荐系统得到了越来越多的研究。协同过滤(Collaborative Filtering,CF)是构建推荐系统最著名的方法之一,而矩阵分解(Matrix Factorization,MF)模型是一种被广泛使用的协同过滤算法模型。基于矩阵分解的推荐算法在推荐系统领域能够取得不错的效果,然而,它比较难适应快速变化的现实世界数据。现实世界中,用户行为变化快速,当这些增量数据出现时,静态的推荐模型不能很好地适应。针对以上问题,本文主要的研究工作如下:针对增量协同过滤方法在流环境下的应用问题,本文基于Apache Flink提出了一个实时增量推荐框架:Realtime Incremental Recommendation Framework(RI RF)。该框架可以让本文提出的增量协同过滤算法能够处理流数据环境下的增量推荐问题。针对增量更新推荐模型问题,本文提出了一种将在线学习和离线训练结合的增量协同过滤的推荐方法,称为具有离线知识的随机梯度下降(Stochastic Gradient Descent,SGD)算法的在线版本:Online SGD with Offline Knowledge(OSGDO)。它能够在处理增量数据的同时,快速的更新推荐模型,从而更好的做出推荐。针对流处理环境下的集成学习问题,本文在增量Funk SVD(Singular Value Decomposition)以及增量Bias SVD算法基础上,结合了通用的Online Bagging机制提出了两种新颖的在线装袋增量推荐算法:Online Bagging Funk SVD(OBFSVD)和Online Bagging Bias SVD(OBBSVD)。在一定程度上,它们可以减少推荐模型预测的推荐结果的方差。本文在提出的RIRF框架上实现了提出的三种方法:OSGDO,OBBSVD以及OBFSVD。当增量数据到来时,本文提出的方法能够较好的增量学习新的数据并且同步更新推荐模型。实验结果表明,本文提出的动态、增量的训练方法比在所有数据上重新构建推荐模型更有效。同时,本文提出的算法在实践中表现良好,在使用著名的MovieLens以及Netflix数据集进行验证时可以达到较好的准确率。
其他文献
2018年3月28日早上,茂名市杨梅镇一罗非鱼养殖基地的罗非鱼暴发病害。当日,笔者所在单位接到报告后前往现场,经采样诊断,确诊发病原因是感染水霉病所致。水霉病是春季罗非鱼
室内给水系统一般由引入管、干管、支管、配水龙头或用水设备等基本部分及增压、蓄水设备等组成。其给水管道布置与敷设总的原则是力求管线最短.配件少、不妨碍美观、便于安装
五月中旬。我与家人和朋友去近郊义务植树。“保护环境”、“低碳生活”已经成为21世纪人类的一个绿色的生活方式。此次活动是朋友间自发组织的。共有20多个家庭参与,大都是夫
财务会计档案是各机关、企业、事业单位进行经济活动的原始记录和真实反映,是记录和反映单位经济业务的重要史料和证据,是各单位的重要档案之一。当前,在国家注重生态保护以及天
目前,我国锅炉的控制系统均采用集散式控制系统—DCS系统,它具有非常多的优点,可以对锅炉进行集中监控,也为锅炉的安全生产和经济效益也带来了非常积极的影响。因此,对于锅炉来说DCS系统的设计是至关重要的。随着科技的快速发展和环境保护意识、可持续发展战略思想的增强,未来发展要求我们在有限的能源中发挥最大的能量。DCS(Distributed Control System)集散式分布控制系统,目前因为控
思想政治工作的方法,是教育者为了达到一定的目的对被教育者思想行为施加可控性影响的措施和手段,也是思想政治工作规律和范畴的具体展开,它是由思想政治工作的任务和内容决定的
[摘要] 目的 分析患者的血和尿液中胱抑素C与糖尿病早期肾损伤的联系。 方法 研究对象为我院2012年6~11月收治的102例糖尿病患者和106例非糖尿病患者。对比糖尿病患者和正常人在空腹状态下的血脂、糖化血红蛋白、血糖、糖化血清蛋白、血和尿液中胱抑素C。 结果 糖尿病患者早期肾损伤与患者的血和尿液中胱抑素C有直接关系,人体血与尿胱抑素C与患者血清GSP、GHb、TG、TC、LDL和Apob呈正相
2016年12月,习近平总书记在全国高校思想政治工作会议上指出,“要坚持把立德树人作为中心环节,把思想政治工作贯穿教育教学全过程,实现全程育人、全方位育人,努力开创我国高等教育事业发展新局面。”《中共中央国务院关于加强和改进新形势下高校思想政治工作的意见》围绕新时代高校“培养什么人”、“怎样培养人”和“为谁培养人”的根本问题,全面部署和系统规划了“三全育人”的目标、原则、内容、要求、方法和举措,为
片上网络设计流程是设计一款NoC架构,测试并确定该片上网络的瓶颈,再有针对性的改进该片上网络架构。一般使用注入流量仿真来测试并确定该片上网络的瓶颈。主流的注入流量包
英语新课改后我国传统的英语教学模式面临着全新的挑战和考验,学生学习兴趣、课堂互动氛围、学生自主学习意识、教师综合素质、多媒体教学技术应用等方面存在的问题制约了我