基于Hadoop平台的Spark快数据推荐算法分析与应用

来源 :现代电子技术 | 被引量 : 0次 | 上传用户:pk8984812
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Hadoop大数据平台上可以搭建Yarn,Mahout,Storm,Graph Lab等框架,其提供了大数据的各种处理能力。但它们各自按自己的机制工作,整合度极低。虽然在Mahout框架中,对机器学习的算法支持较为完善,但是数据必需是离线的。在大数据时代,要求不仅具有处理能力,还强调了数据的时效性,以前的框架都显得有点力不从心。Spark是Hadoop平台上的新型利器,它的各个部分几乎能替代以前的分散的框架,且采用统一的处理机制,整合度很好,速度比传统处理方式快几十倍甚至几百倍。基于Hadoop平台的Spark快数据推荐算法分析与应用是在Hadoop平台上用Yarn作资源管理,Spark作快数据的处理,这极大地提高了大数据的处理效率。该文以专业推荐系统为应用基础,采用Yarn作资源管理,及Spark ALS算法做推荐,Spark Page Rank算法做专业排名,实验结果表明,Spark框架对大数据的处理机制能够满足日益增值的大数据应用对速度的要求。
其他文献
关键词 桡动脉穿刺 股动脉穿刺 护理体会  doi:10.3969/j.issn.1007-614x.2010.35.220  冠心病是指冠状动脉粥样硬化及冠状动脉痉挛使血管阻塞,导致心肌缺血、缺氧而引起的心脏病。心脏介入治疗是采用局麻下经皮穿刺血管将导管送达冠状动脉,排除冠状动脉阻塞,消除狭窄,增加供血的一种方法[1]。主要包括冠状动脉造影术、经皮腔内冠脉成形术(PTCA)及支架植入术等具有疗效
目的:了解南安市204例0~14岁儿童哮喘的发病原因。方法:2007年6月~2009年12月间儿科诊治204例儿童哮喘相关因素进行回顾性分析。结果:0~5岁发病126例(61.8%),占首位,其中3岁以前发病1
档案管理与广大群众息息相关,因此,档案储存及其管理具有至关重要的意义,档案管理的质量与效率直接影响我国的国民利益和国家的建设。因此,在大数据时代背景下,档案管理的研
摘 要 目的:探索孕11~16周终止妊娠的最佳治疗方法。方法:孕11~16周要求终止妊娠的86例患者随机分为三组,即A组服米非司酮+米索前列醇组、B组钳刮组、C组服米非司酮+米索前列醇+清宫组。观察3种方法终止妊娠的情况。结果:服米非司酮+米索前列醇+清宫组成功率高,出血量小,残留例数少,手术时间短,病人痛苦小。结论:米非司酮+米索前列醇+清宫是孕11~16周终止妊娠的最佳方法。  关键词 人工
从油茶籽油生产的原料、工艺、设备、产品包装、储存等环节入手,研究了油茶籽油中邻苯二甲酸酯来源及防范措施。结果表明:茶籽原果本身含有极微量的邻苯二甲酸酯,但不是油茶
在大规模网络环境背景下,采用Hadoop和Spark计算框架构建一种低成本的可扩展性的大数据安全分析检测平台,使用离线模型生成与在线检测相结合的方式对异构网络数据进行分析,在