基于Flink的电影推荐系统研究与设计

被引量 : 0次 | 上传用户:woshigr321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,大数据时代悄然降临。在互联网的应用软件中,充斥着各种各样的视频资源软件,视频内容也百花齐放。尤其在电影产业中,有着大量的电影推荐软件与电影资源。虽然在电影网站中,种类繁多的电影资源给用户带来了丰富的视觉盛宴,同样也给用户带来了选择困难,造成用户“信息过载”。如何快速解决“信息过载”问题,并为用户推荐简洁、个性化的电影资源信息,近年来成为研究热点。本文设计并实现了基于Flink的电影推荐系统,运用新一代流式计算引擎Flink与融合时间权重与奖惩因子的实时推荐算法,为用户推荐更符合兴趣爱好的电影视频资源,一方面可以帮助用户节省时间寻找视频资源,另一方面,吸引用户流量可以给企业带来潜在的商业价值。传统使用Hadoop平台搭建的推荐系统,在面对如今海量的数据与复杂的算法模型时,处理速度明显下降,不能做到低延时、高效的为用户进行数据推荐;其次传统基于协同过滤的推荐算法,无法实时感知用户兴趣漂移的问题,导致推荐的结果差强人意。对于推荐引擎而言,Spark采用内存计算与有向无环图等执行引擎技术,相比较Hadoop引擎,从磁盘读取的速度是Hadoop的10倍以上,从内存读取数据是Hadoop的100倍以上,采用Spark计算引擎,可以高效的处理海量数据,但是在处理大量流式数据时,Spark采用微批处理架构,在实时性方面还有待提高,新一代流式计算引擎Flink,相比较Spark的Spark Streaming处理实时数据,性能上有了明显的提升,处理流式数据更加得心应手。对于推荐算法而言,混合推荐算法更能弥补单一推荐算法的不足,采用混合推荐算法,将对推荐结果有明显的提升。因此,本文的主要工作如下:(1)在计算引擎方面,电影推荐系统平台分为离线推荐与实时推荐两部分。离线推荐物理平台采用Spark计算引擎,与Flume、Kafka等大数据组件搭建电影推荐系统,为大数据处理分析电影资源提供保障。使用Flink计算引擎构建实时推荐服务,对电影推荐系统产生的流式数据进行处理。(2)在推荐算法方面,电影推荐系统分为离线推荐算法与实时推荐算法两部分。通过分析业界常见的推荐算法,在离线推荐时,通过矩阵分解算法解决电影评分矩阵稀疏性的问题,选择Spark的交替最小二乘法并融合堆排序算法,实现改进的协同过滤推荐算法,并通过不断调参、训练合适的隐语义推荐模型,为用户产生Top-N个电影数据,进行离线电影推荐。离线推荐算法在用户更新一项电影评分后的推荐结果,与未更新时产生的推荐结果基本相同,所以不具备实时推荐能力,因此本文引入艾宾浩斯遗忘曲线与奖惩因子构建实时推荐算法,通过调整时间权重函数,对用户进行实时电影Top-N推荐。(3)最后在三台服务器上搭建分布式集群进行对比实验。电影推荐系统的离线推荐部分,通过堆排序改进后的离线推荐ALS算法,采用Spark计算引擎,在RMSE指标基本不变的情况下,算法模型运行速度显著提高;并且离线推荐算法引入堆排序,解决MLlib中ALS算法在模型预测时会进行笛卡尔积,消耗大量内存与算法执行时间长的问题。电影推荐系统的实时推荐部分,实时推荐算法引入艾宾浩斯遗忘曲线,通过融合时间权重与奖惩因子,来动态地感知用户兴趣发生漂移的问题,并采用了 Flink计算引擎,实验结果表明,实时推荐算法在准确率和召回率指标上有了明显提高,推荐结果更符合用户兴趣爱好。新一代流式计算引擎Flink对比Spark计算引擎,实验结果表明,Flink计算引擎相比较Spark计算引擎在数据量不断增加的情况下,算法模型执行速度更快。
其他文献
随着移动短视频社交平台的迅速发展,移动短视频行业正在经历空前激烈的用户竞争,越来越多企业都将战略目标聚焦于提升核心竞争力之上,旨在能够精准地在行业浪潮中脱颖而出不断吸引新用户,同时留住老用户。然而,现有研究对于移动短视频社交平台用户粘性的影响研究相对较少,仅仅基于行业的趋势和营销案例的研究不足以为从业者带来启发和支持,正是基于这样的需要,本研究从用户角度出发,构建了移动短视频社交平台视频呈现形式对
学位
This thesis will go deeper in how Hema’s O2 O model is different from normal O2 O models and what effect this model has on customers and the customer loyalty.The reason I chose this subject is because
学位
随着国际贸易往来日趋活跃,各国间贸易摩擦不断加剧升级。为保护本国产业不受损害,各国政府纷纷采取贸易保护措施。在世界贸易组织允许的条件下,反倾销措施已经成为各国最常用的保护工具。而美国为了抑制中国发展,已经成为世界上对中国采取反倾销措施最多的发达国家。本文以全球双边贸易兴起为背景,利用2007至2013年中国海关数据和世界银行反倾销数据,通过构建双重差分模型研究了美国采取反倾销措施对中国出口的影响。
学位
网络定向广告是精准化营销中的一种形式,通过读取及跟踪用户终端设备上储存的信息,辨认用户身份并分析用户行为,投放精准化广告。在如今的信息化社会中,网络定向广告的覆盖范围日益增大。目前学者们的研究主要聚焦于对技术本身的优化或探讨用户点击意愿的影响变量,而对用户屏蔽意愿的研究则相对匮乏。因此,本研究以用户对网络定向广告的认知水平为自变量,隐私关注、感知风险及感知利益为中介变量,用户对网络定向广告的屏蔽意
学位
This thesis investigates the principles of crisis communication in the process of crisis management.In reviewing current communication strategy used by governmental organizations in crisis management,
学位
近年来,葡萄酒和核桃油掺假造假的问题层出不穷,严重扰乱了市场秩序,损害了消费者权益。由于目前的标准尚不足以解决此问题,因而建立方便快速有效的葡萄酒和核桃油甄别方法对于保障消费者合法权益、规范市场有着至关重要的作用。本课题研究了多种仪器分析技术,包括中红外光谱(MIR)、近红外光谱(NIR)、电子舌(E-tongue)、气相色谱(GC)、气相色谱-质谱(GC-MS)、气相色谱-同位素比率质谱(GC-
学位
进入本世纪以来,我国曾爆发多起大规模违法添加“瘦肉精”导致的食品安全事件,在社会上引起广泛的关注,“瘦肉精”在我国通常特指克伦特罗(CLB)。针对目前对于CLB快速检测手段单一的问题,本研究尝试研制分子印迹传感器对CLB及其代谢物进行快速检测,为CLB的快速检测提供新的思路和技术积累。通过研究克伦特罗在小鼠中的代谢途径并结合本实验室已有的成果,除CLB原药外,分别以去氧肾上腺素(PE)、对氨基马尿
学位
屋顶绿化具有减缓热岛效应、降低城市建筑耗能、吸滞和净化雨水等生态功能,是重要的城市绿色基础设施之一。在寸土寸金的特大城市,屋顶绿化已逐渐成为城市增绿的主要方式。然而,目前在屋顶绿化植物对建筑温度和雨水吸滞与净化的调控效应方面的研究极少,仅有的研究都局限在佛甲草上。本文选择两种景天酸代谢(CAM)植物(佛甲草和铺地锦竹草)、两种C3草坪植物(草地早熟禾和高羊茅)和两种C4+C3草坪植物组合[多年生黑
学位
硫化氢是工业生产排放的主要污染气体之一,其对人体、环境和工业设备都存在巨大威胁,传统的H2S处理方法存在多种弊端,包括反应温度高、转化率低、未能回收H2S中的H和S资源等。近年来新兴的光电催化方法解决了以上问题,但是仍需外加能源,未能实现H2S的完全自驱动分解,并且其分解产物H2存在爆炸危险,难于储存和运输。为了解决以上问题,本研究建立了一个完全自驱动光电催化分解H2S,回收单质S和H2O2,并同
学位
随着城市化发展,城市公园成为居民越来越重要的休闲健身场所。相对于城市其他区域,公园大气具有更高的负离子浓度。空气负离子具有抑制细菌、清洁空气、人体保健等功效,对城市居民健康有着积极的影响。中山公园位于上海市中心地区,是上海最早建立的城市公园之一,植物种类丰富,林冠覆盖度高,并有草地、灌丛、池塘、小型广场分布。本研究在2017年4月至2018年3月间,通过园内长期定位观测站记录负离子浓度的变化。同时
学位