基于Hadoop的推荐算法研究

被引量 : 3次 | 上传用户:mgy1982
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着技术的进步,互联网越来越贴近人们的生活,人们获取信息的途径也越来越偏向于网络。网络上产生的信息呈爆炸式增长,人们已经难以从海量的数据中获得自己想要的结果。现今已步入了信息过载的时代。为了能有效利用信息,搜索引擎被发明出来并大获成功。但是因为搜索引擎有着关键字难以总结、缺乏个性化结果等种种缺点,已经不能满足用户越来越个性化的需求。推荐系统被认为是一种比搜索引擎更优秀的信息过滤解决方案。推荐系统相比于搜索引擎具有智能性和主动性。推荐系统无需用户主动总结出关键字来进行主动的操作,而是可以以用户的历史记录作为依据,通过计算得出用户可能感兴趣的个性化结果。但是推荐引擎也面临着许多问题,其中一个就是传统的推荐引擎所使用的推荐算法是为单机运行所设计。随着海量数据的产生和机器性能瓶颈的到来,传统的单机推荐算法已经越来越无法满足实际生产环境的需要,单机算法的存储扩展性和计算扩展性都严重限制了推荐系统的发展。Hadoop是一个大数据处理平台,为用户提供了一个底层透明的分布式存储(HDFS)与计算平台(Map Reduce),可以通过简单的添加节点水平的增加集群的存储与运算能力,正可以解决推荐系统的扩展性问题。本文深入研究了HDFS和Map Reduce,针对不确定性传播算法给出了Map Reduce并行化实现。给出了一种基于项目的协同过滤算法和全局排序算法的Map Reduce并行化实现。主要工作如下:1.通过对三种算法的仔细分析与研究,将复杂的算法流程拆分开来,每一个流程分别对应一个Map Reduce作业,完成算法的并行化实现。并给出了不确定性传播算法在并行环境下运行的加速比。证明其并行化后有着较好的扩展性,解决了传统单机算法的计算扩展性问题。此外还对三种算法的命中率进行了对比。2.在4台PC机上搭建了八个虚拟机节点,在八个虚拟机节点上部署了Hadoop大数据平台。Hadoop提供的HDFS可以通过简单的增加节点来扩充整个系统的存储容量,解决了推荐系统的存储扩展性问题。3.通过分析Map Reduce任务日志,找出了耗时作业的瓶颈所在。深入分析Map Reduce的运行原理,找出可能优化的步骤,给出了一系列的优化参数,降低了作业运行时间,减小了单个任务运行失败的可能性。
其他文献
新时代中国社会主要矛盾转化对体育产业供给侧改革提出了新要求,推进体育产业供给侧改革是新时代背景下落实党中央总体战略部署的具体举措,是促进体育产业健康快速发展的必由
<正>采访问题:1.你接受过信息中介服务吗?2.对其有什么评价?3.以后还会接受信息中介的服务吗?4.你会根据什么来选择信息中介?(可信度或价格)5.对信息中介的发展有什么建议?采
目的探讨低颅压综合征患者的临床特点、诊断、鉴别诊断及治疗。方法回顾分析20例低颅压综合征患者的临床资料。结果20例患者均符合低颅压综合征的诊断,经补液等治疗后均痊愈
根据统计学原理和蒙特卡罗法所作的分析表明:采用线性包络检波器的非相干动目标显示不同于采用平方律包络检波器的非相干动目标显示。因为平方律包络检波器便于分析,所以在文
加入WTO后外资旅行社的进入,使我国旅行社面临着全球性的竞争态势,这对旅行社人力资源的管理提出了非常严峻的挑战。针对目前我国旅行社人才流失的现状,我们应该完善旅行社人
黄山市地处安徽省南部,东靠浙江省,南连江西省,西、北分别与本省的池州、宣城毗邻,位于东经117&#176;12′~118&#176;53′,北纬29&#176;24′-30&#176;31′。辖三区四县和黄山风景区
<正>据国土房管局统计资料显示,截至4月底,北京二手房交易总量为10375套,交易量远远高于2003年同期交易量4595套,增长幅度达126%,交易量是去年全年交易量的一半。北京新楼盘
一、研究背景与目的高血钾症是指血清中钾离子的浓度超过5.5 mmol/l,是一种对生命有严重危害的代谢性疾病。导致高血钾症最主要的原因就是肾脏钾离子排泄异常。钾的分泌主要
在我国经济发展的“新常态”下,各行业都面临着新的风险与机遇,迎来动态变化的市场形势。我国的液化石油气销售行业从最初的国有小量供应,到众多类型资本共同参与、竞争的发
Caspase-1、caspase-3是迄今已发现16位成员的天门冬氨酸(Asp)特异性半胱氨酸蛋白酶caspase超家族的较为活跃的两个成员,前者与炎症反应和细胞凋亡有关,后者与细胞凋亡关系密切。