基于流式计算的实时推荐系统研究与设计

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:xiaoyaozhu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据过载催生了推荐系统的产生,而随着互联网的飞速发展,传统的离线推荐越来越难以满足用户需求,用户对于推荐系统的实时性要求越来越高。当前国内外对于推荐系统的研究主要是基于离线数据对推荐系统模型进行更新,实时调用离线更新得到的推荐结果。本文在离线推荐系统的基础上实现了基于Storm的实时推荐系统。设计了基于Flume的数据收集模块,基于Kafka的数据缓存模块,基于协同过滤以及改进的集成算法的离线计算模块、基于Storm的实时计算模块以及数据存储模块。Flume是一个高可用的、分布式的海量日志采集系统,Flume兼容多种数据源并且可以将采集到的数据输出到多种外部存储系统中,通过对Flume的简单配置即可实现日志采集;而分布式的Kafka消息队列可以解决当实时数据过大时造成的数据堵塞,Kafka的生产者消费者模式比起消息的订阅发布者模式更易于实现数据缓存。在离线计算阶段,通过对比推荐系统的召回以及排序算法,选取了协同过滤算法以及改进的集成学习算法。在推荐的召回阶段,其决定了召回的上限,因此采用了业界使用最多的基于物品的协同过滤算法。考虑到离线数据的量级,所以基于Hadoop Map Reduce实现了离线物品相似度的计算,即通过计算物品的共现矩阵来增量更新物品的相似度。集成学习即Stacking算法主要包括两层,第一层为基于Boosting的GBDT算法以及基于深度学习的WD算法。Boosting提升方法的思想是,在实际的机器学习任务中,学习一个良好的模型是比较困难的,而学习很多弱分类模型是比较简单的。GBDT算法是梯度提升Gradient boosting和决策树Decision Tree的结合,Gradient boosting中的单个学习器为Decision Tree。WD模型通过对LR模型以及DNN模型的联合训练,既保证了推荐系统的泛化能力也保证了推荐系统的记忆能力。Stacking模型把GBDT以及WD模型的输出结果作为第二层模型LR的输入从而进行了最终推荐。在离线阶段会将离线计算好的物品的相似度矩阵以及最终的推荐结果保存到Redis中以便实时计算的调用。在实时阶段,通过对比当前的流式计算框架,选取了纯流式计算模型Storm,Storm在实时推荐阶段,会通过时间窗口保存用户行为,超过窗口规定时间的用户行为则不被计算,来结合更新规则实时更新物品相似度进行实时更新以及推荐。离线计算框架结合实时计算框架保证了推荐的准确性以及实时性。最终通过对推荐系统召回率、准确率以及推荐时间、各推荐算法的AUC的对比,证明了设计的可行性。
其他文献
随着互联网通信技术的高速发展,众多的通信终端设备能够快速、便捷地接入互联网,并在其中传递信息。通信终端设备地接入丰富了互联网中的信息内容,但各种信息繁杂交织在一起
在乌兹别克斯坦铁路主要用于货物运输和城市公共交通,尚没有客运线路上使用的先例。塔什干—哈尔西线采用预应力混凝土轨枕的主要目的是降低轨道结构的振动。本文主要研究混凝土轨枕能否降低轨道结构的振动,对主要参数的影响规律进行了探讨。本文的主要研究内容和结论如下:(1)建立了B70混凝土轨枕和中国Ⅲ型混凝土轨枕的竖向动力分析模型,对比分析了两种轨枕的动力特性。结果表明,预应力混凝土轨枕可降低钢轨的加速度,利
柔性应变传感技术的出现,解决了在不牺牲机器人灵巧性的情况下完全满足其手足动作的需求,这具有重大的研究意义与工程应用价值。而目前主流研究的基于银纳米线、铜纳米线以及
非损伤微测技术(Non-invasive Micro-test Technology,NMT)是一种检测活体材料生理功能的技术,通过它可以检测离子或者分子进出生物体的流动速率和三维运动方向等信息。该技术
图像融合是将多个传感器在同一场景获取的多幅图像,综合生成一幅包含该场景中完整信息的图像,其目的是提高图像的分辨率和清晰度,以便于观察和再处理。本文将主要介绍在稀疏
凸差分(DC)规划在非凸规划中扮演着重要角色,而凸差分算法(DCA)是解决DC规划的有效算法之一。由于其计算速度快等特点,DCA常用来处理大规模问题,最近已成为一大研究热点。经过几十年的发展,其收敛性已经被广泛研究,但其收敛速率方面的研究还不多,本文以一类特殊的无约束DC规划为研究对象,从误差界角度来分析DCA的收敛速率。本文首先介绍了凸函数及无约束优化问题的相关性质,给出所要研究的一类无约束DC
伊恩·班克斯是一位杰出的苏格兰作家,以非凡的创造力和丰富的想象力而著称。《捕蜂器》是班克斯的第一部部主流小说,它不仅让其作者斩获名望和成功,而且也赢得了广大读者的喜爱。本文借助詹姆斯·费伦的不可靠叙述理论,分析小说《捕蜂器》中的不可靠叙述现象和探索隐含作者的使用不可靠叙述策略的目的。首先,本文将分别从三条轴线上探讨叙述者弗兰克的不可靠性。由于弗兰克隐瞒其真实性别这一关键信息,错误报道自己的精神状态
我国北方地区冬季寒冷漫长,环境温度低,甚至会出现冻裂沼气池的问题,夏季环境温度升高反而产生热量富余浪费的问题,使得沼气产气率低,工程综合效益差,而且目前大多数沼气池增
国际油价受全球石油供需关系、宏观经济环境、政治等多方因素影响,波动幅度较大;2020年度疫情冲击下,全球原油需求锐减,国际油价暴跌,原油期货价格一度跌破零点,也导致2020年上半年“三桶油”经营业绩不佳。不论是油气行业长期以来受国际油价影响的周期性净利润下行,抑或短期因素冲击下,油气行业受国际油价影响产生的重大亏损,都是亟需关注的问题。本研究基于“三桶油”中经营业绩受国际油价波动影响最大的中石油为代表性案例,从以下三个方面进行分析:案例分析中石油的经营现状与特殊性;敏感性
学位
由于通信信号、无线电信号、遥控遥测信号、雷达信号等信号的干扰,造成了战场复杂多变的电磁信号环境。为了监测战场电磁信号,从众多干扰源中准确识别信号的调制类型显得尤为