基于Spark的视频推荐系统研究与实现

来源 :重庆师范大学 | 被引量 : 4次 | 上传用户:wuliaocanglang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,数据充斥着人们日常生活的方方面面,人们已经进入了大数据时代。而数据中却蕴藏着丰富的有价值的信息,面对数据的爆炸式增长,如何运用有效的方法挖掘出数据中有价值的信息在大数据的研究课题中具有重要意义。Hadoop作为一个开源的分布式大数据处理框架,采用Hadoop Distributed File System(HDFS)进行存储和Map Reduce(MR)进行计算,但面对海量数据计算,基于MR计算已经无法满足用户日益提高的服务要求。而Spark的诞生大大改善了这一点,它是基于内存计算的分布式大数据处理框架,使用Resilient Distributed Datasets(RDD)数据模型编程,与MR相比,大大减少了磁盘的I/O次数,特别是在高迭代的数据计算中表现的尤为明显。因此,Spark一经诞生迅速受到了广大企业、学者的追捧。推荐系统是解决信息过载的有效办法,本文采用协同过滤算法基于Spark平台实现一个视频推荐系统帮助用户在海量视频数据中挖掘出真正想要的视频信息。但使用Spark平台进行数据处理过程花费的时间也很漫长,不能够满足用户的需求,而搭建分布式的Spark集群可以实现数据并行化计算,从而有效提高计算效率。本文通过对推荐算法并行化设计以及推荐系统的分析与设计,完成了基于Spark的视频推荐系统的实现。主要所做的工作如下:(1)基于Spark的视频推荐算法的并行化设计。首先通过对推荐算法和Spark平台及其各个组件的了解,详细设计了推荐算法在分布式的Spark集群中的并行化实现过程,包括基于项目的协同过滤和基于用户的协同过滤推荐算法的并行化实现。最后,通过对比实验比较了推荐算法在基于Spark集群和基于Hadoop集群上的性能差异。(2)基于Spark的视频推荐系统的实现。本文主要是基于Spark平台完成了视频推荐系统的实现,系统将获取的Web日志进行预处理存入数据库中,训练推荐模型,采用实时和离线推荐相结合的方式给用户产生推荐列表。系统将数据处理以及模型训练在Ubuntu系统上的Spark集群中进行,而将视频推荐和业务逻辑模块以及推荐列表展示在Windows系统中进行。
其他文献
唐朝前期出于经略西北的需要,统治者高度重视马牧业,为此制订了系统完整的制度,在陇右地区建立了规模宏大的监牧基地,良好的马政为唐军提供了大量优质战马,在唐朝前期的开边
提高中国农村人力资本投资特别是技能资本投资是实现中国农民收入持续快速增长的根本途径。这不仅关系着农民、农村、农业的发展,也关系着我国经济发展的全局。本文从人力资
分析对比了冷压工艺生产封头对热压工艺的优势 ,重点介绍了封头的一种非常规的冷压工艺 ,研究结果表明 :这一方法对提高产品质量、降低生产成本以及提高压力容器的专业化生产
目前我国灵活就业群体生育保险制度缺位,其根源在于忽视边缘就业群体的社会需求、对生育保险制度的功能认识不足以及立法中缺乏"利益相关者"民主参与的程序和社会性别视角。
缺陷检测是液晶显示屏生产流程中不可或缺的一道工序,而缺陷检测技术是降低生产成本、提高产品质量的关键手段。传统的检测方式是人工检查,其主观性大、检测效率和精度比较低
大学生创新素养,是由大学生的创新心理品质、创新知识结构和创新能力三要素组成的有机整体。培养大学生创新心理品质,完善大学生创新知识结构,培养大学生创新实践能力是提升
基于目前UDP通信的优势与不足,在参考TCP/IP协议及ISO7层协议、X 25协议的基础上,设计了一套基于UDP的通信协议来实现基于UDP的可靠通信及弱连接特性。
新的社会保险法的出台与实施意义重大,有利于构建社会主义和谐社会,有利于健全规范社会主义的法律体系,推动社会保险制度有法可依,有利于切实保护人民群众利益,推动人力资源
<正> 穿孔病是桃树的主要病害之一,在桃产区普遍发生,在日光温室桃栽培中也经常造成危害。穿孔病类主要包括细菌性穿孔病、真菌性霉斑穿孔病和真菌性褐斑穿孔病,这三种穿孔病
以工程实际中广泛应用的管道为基础,针对管道输送中的薄弱环节弯管部分,采用FLUENT流体力学数值模拟软件和有限体积法,建立油水两相流流场的数学模型,研究弯管油水两相流动的