基于Spark的推荐系统设计与实现

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:csxna
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络大规模普及以及互联网技术高速发展,我们生活在数据时代中。然而日益增长的数据量使用户感到困惑与迷茫。如何存储与分析、如何挖掘潜在的信息则成为亟待解决的关键问题。推荐系统作为实现快速、全面、准确过滤大量数据的应用,从而让用户处于新的层面上做深入分析。推荐系统的核心算法隶属于数据挖掘部分,随着用户基数以及产品数的递增而导致算法实现过程需耗费大量的时间,无法满足当今商业需求,因此结合分布式计算平台并行化实现则成为有效的解决方案。同时在大数据生态圈中,引入基于内存迭代分析框架Spark迎合推荐算法并行化计算的需求。基于国内外对Spark平台的应用研究以及基于Hadoop平台的推荐系统设计与实现,本文在了解弹性分布式数据集RDD及推荐算法基础后,设计与实现基于Spark的推荐系统。其主要工作包括以下几方面:(1)推荐算法的并行化计算研究。首先针对MapReduce作为批处理框架而不善于处理迭代计算的特征,以Spark平台为基础,实现推荐算法的并行化计算;其次以推荐引擎为基础结合混合式推荐理论,分析用户历史行为数据以及用户评分记录建立用户偏好模型;最后基于推荐系统理论的研究,明确推荐系统的逻辑架构并详细设计整体基础架构。通过大数据平台以及内存迭代计算框架进行分布式并行化处理,体现系统的可扩展性以及良好的并行性。(2)实现定制化Ganglia以及Nagios混合监控。推荐系统基于大数据平台,实时监测以保证平台的稳定性则至关重要。针对Ganglia默认加载全部监控页面而导致Web端极易崩溃的现象,因此本文对Ganglia系统进行改进优化。优化内容包括:首先根据自身应用所监测的参数,定制地抽取出相应的监测数据集;其次结合Memcached机制,缓存监测图片信息,从而有效降低服务器压力。通过Nagios完善平台的预报警功能。本文通过实验表明,在多迭代并行化计算过程中,Spark计算框架的整体性能优于Hadoop o此外通过用户偏好模型而获取到的组合推荐结果,其评测指标优于单一推荐结果。定制化Ganglia监控通过针对性的读取监测参数以及缓存机制,大幅度的降低系统整体开销。
其他文献
耕地是支撑经济社会发展的重要资源,是保障国家粮食安全和农产品有效供给的基础,是确保国家长治久安的基石。党的十八大以来,以习近平总书记为核心的党中央着眼全局,对农业和
农业部近日制定并发布2014年春夏季主要作物科学施肥技术指导意见,以测土配方施肥项目成果为主要依据,结合气候特点、主要作物生长情况和需肥特点,分区域、分品种提出了农作物施
在日前于北京召开的第四届农药与环境安全国际学术会议上,中国提交的奈安除草剂副作用防控技术被评为国际农药与环境安全一等奖。
今年,广元市政府在全市启动实施了十大农业科技示范项目。一年来.按照全市农产品优势产业布局.在苍溪县实施了猕猴桃标准化生产科技示范项目和苍溪梨品种改良科技示范项目.在剑阁
夏季江苏省经常会普降大到暴雨,蔬菜部分田块受淹,田间湿度大,有利于蔬菜霜霉病、白粉病、细菌性角斑病、蜗牛等病虫害发生危害,为减轻主要蔬菜病虫危害损失,各地要做好病虫防治工
2013年1月末,欧洲食品安全局经评估发布一项报告,报告显示,吡虫啉、噻虫嗪及噻虫胺这三种新烟碱类种子处理农药对蜜蜂造成了“严重威胁”,建议新烟碱类农药禁止用于由蜜蜂进行授
首先对计算机智能图像识别的算法进行简要分析,在此基础上对计算机智能图像识别技术进行论述。期望通过本文的研究能够对促进计算机智能图像识别的推广应用有所帮助。
税法规定的纳税人是指直接负有纳税义务的单位和个人,即税款的缴纳者。因为公共产品具有效用的不可分割性、消费的非竞争性和受益的非排他性等特点,无法通过市场机制的私人个体
报纸
英国诗人弗罗斯特的《未选择的路》收入人教版《语文〉七年级下册,《教师教学用书》将其主旨理解为“这首诗中诗人念念不忘的是那一条未选择的路,而不是已经选择的路。这也正是