基于hadoop的推荐系统设计与实现

被引量 : 62次 | 上传用户:zhangjie333666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅猛发展,推荐系统已成为解决信息超载问题最重要的过滤工具,用以帮助用户在海量的数据中快速高效地找到有价值的内容。但在实际应用中,由于产品种类和用户数目通常非常庞大,而传统的推荐系统往往运行于单机之上,受到单机的性能限制,已经远远不能够满足海量数据推荐计算的需要。为了解决推荐系统的可扩展性问题,已经提出若干基于分布式计算开源软件框架Apache Hadoop的系统解决方案。本文在深入研究HDFS分布式系统和MapReduce编程思想的基础上,针对近年来提出的网络推荐算法,提出了几种基于MapReduce编程模型的分布式并行化算法,并在此基础上,设计和实现了一个基于Hadoop的推荐原型系统。主要工作内容如下:1.通过对Hadoop运行机制和MapReduce编程原理的研究,结合对推荐系统与推荐算法,特别是对以物质扩散推荐算法和热传导推荐算法为代表的网络推荐算法的深入分析,设计和实现基于Hadoop平台的网络推荐算法MapReduce化编程实现方案,将该算法复杂的计算任务分解为一系列MapReduce作业流程,以便于在Hadoop和云计算平台上进行分布式并行化处理,通过一系列实验测试证明算法在集群上具有良好的并行性和可扩展性。2.在网络推荐算法的MapReduce化方案的基础上,使用combiner函数、sequence file输入输出类型等优化方法,分析数据集的长尾分布数据特征和算法计算过程中的实现细节,提出通过在资源分配矩阵的计算过程中利用Pair和Stripe方案以及对极度活跃用户进行剪切的优化设计思想,有效地解决算法的性能瓶颈问题,改进基于Hadoop的网络推荐算法的MapReduce方案,并通过实验测试证明改进方法可以进一步提高算法的效率。3.研究了包括Hadoop、Mahout、Sqoop、Ganglia等一系列相关开源软件的安装、部署和使用方法,结合本文设计的网络推荐算法的MapReduce化方案,经过系统需求、系统框架和流程的设计、系统的实现和系统的测试几个步骤,在多台计算机组成的集群环境下设计、实现和部署了基于Hadoop的推荐原型系统。
其他文献
通过对我国民族色彩艺术特点的分析,论述了民族色彩在现代平面艺术设计中的作用,即加强了平面艺术设计的视觉感受,丰富了平面艺术设计的文化内涵,是对平面艺术设计的再度诠释
随着世界金融全球化与自由化的不断加深,世界金融市场动荡加剧,导致全球经济金融危机高发。有效的内部控制作为提高商业银行核心竞争力的一种关键手段,具有确保银行体系稳健
目的探讨阴道镜检查对宫颈疾病的诊断价值。方法回顾性分析696例宫颈疾病患者的阴道镜检查资料,并与宫颈活组织病理进行比较。结果 696例中,CIN 154例(CINⅠ118例、CINⅡ23例
用玻璃注射器(气袋)采集气体样品,以双柱单氢火焰离子化检测器的气相色谱仪直接进行测定。进样1.0 mL样品分别进入汽化室的总烃柱和甲烷柱中,由于这两个柱子填充材料和长短差
目的研究包装设计创新思维形成与发展的主要方法与途径。方法分别从文化的融合与挖掘、设计理念的更新、产品细分与市场定位、包装材料的发展、设计合作模式的变革等方面,论
随着网络技术的飞速发展,使得各类网络的应用软件都被运用到民众生活以及社会稳定的重要范围,可是在Internet网进行信息交流的时候,数目众多的网络工业也同时显露了,严重破坏了数
学生信息管理系统是将计算机科学、管理科学等领域的技术应用于学生信息管理而形成的计算机应用系统,对于提高学生信息管理的效率和质量,以及整个学校的管理水平都具有着重要意
<正>2012年11月15日,党的十八届一中全会后习近平总书记率新一届党中央政治局常委亮相,发表了约10分钟的演讲。他特别谈到目前"党内存在着许多亟待解决的问题",其中列举了4条
公立医院改革是惠及全民、关系民生的事业,也是一项世界性难题。新中国成立以来,我国公立医院经历了以市场化改革为目标的老医改和以“公益性回归”为目标的新医改两次不同价
目的:研究外展人员在实施针具交换中的角色和重要性,总结外展人员实施针具交换服务的相关因素,为更好发挥外展人员的优势,持续开展人员针具交换,降低吸毒人员及性伴的HIV感染