基于Hadoop的MapReduce性能优化研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:ayong790401
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的不断发展,网络和企业生产中需要处理的数据越来越多,云计算成为大数据处理的流行计算模式。Hadoop作为云计算的开源系统平台,很快成为大数据处理的主流技术。随着Hadoop集群的广泛应用,其性能问题也成为人们关注的重点。其中负载均衡对集群性能有重要的影响,也是本文研究的重点。本文通过对MapReduce运行过程中存在的负载均衡问题进行研究和分析,达到集群性能优化的目的。针对异构环境下,节点计算能力各不相同,在MapReduce的任务调度过程中容易出现节点任务负载不均,导致个别节点执行时间过长,进而影响整个作业的响应时间问题,本文提出了一种基于负载均衡的任务调度算法。该算法通过分析任务执行特点以及异构集群中节点性能,得到了一个任务调度负载均衡度量值,该度量值为节点的任务分配提供了依据,使得每个节点在任务调度中得到与其性能相匹配的计算负载,并在任务执行过程中通过建立节点通信模型实现负载的动态调节,从而保证了任务调度中的负载均衡。对于MapReduce执行过程中采用默认Hash分区机制导致在处理密集型数据时,节点接收到的数据负载倾斜问题,本文提出了分区代价模型,该模型对分区的负载均衡问题进行代价评估,并在此模型基础上提出了新的细粒度分区算法,该算法通过增加分区个数,减少分区中的倾斜数据,并通过分区代价模型保证节点接收到的数据量的相对均衡。最后,通过搭建实验环境,并设计相应的实验方案,验证了本文提出的任务调度算法和细粒度分区算法对集群负载均衡的优化。
其他文献
利用NaI闪烁谱仪测量了在探测器与放射源间某个距离下对应的计数率。对测量的数据分别利用等精度最小二乘法和未知参数逼近法进行了处理,观察到在某些未知参数下,最小二乘法
1860年代的俄国知识界对莎士比亚的态度有了一个大转变,文学的巨人竟不如一双耐用的皮靴,个中缘由值得探究。本文立足文学论争史料,结合俄国社会思想史背景,详尽分析了莎翁在
翻译是基于原作的艺术的再创造,它不可避免地会受到翻译主体,即译者的个人风格的影响。所以为了成功地再现原作,译者必须学会正确处理其个人风格,在尽量淡化其个人风格的同时
紫荆关梯级水电站存在水质差、杂物多、泥沙含量大等问题,电站水轮机泥沙磨蚀问题严重。采用新型高耐蚀耐磨非晶纳米晶复合涂层材料,对紫荆关一级水电站水轮机转轮进行抗磨蚀
利用平板培养法对黄瓜连作根系微生物种群连续性变化进行了跟踪研究。结果表明,黄瓜连作导致土壤可培养微生物数量减少,其中细菌数量降低最为明显,对连作表现出较高的敏感性,
伴随我国电力工业的不断发展,以及信息技术的更新,变电站的综合自动化逐步进入了一个新的智能化、实用化的时代。在变电站实现综合自动化的过程中,对施工现场的管理十分重要
研究背景:新生儿出生后,面临短期内肠道菌群定植及大量外界抗原的刺激,如何预防炎症并维持免疫稳态,对新生儿健康至关重要。髓系抑制性细胞(Myeloid-derived Suppressor Cell
目的了解糖尿病患者发生糖尿病视网膜病变(diabetic retinopathy,DR)的危险因素,以探索DR的防治策略。方法收集2009年2月至8月中国医科大学第一附属医院内分泌科病房确诊为糖
随着社会不断的发展,人们的生活水平逐渐提高,电力是人们生活中的重要组成部分,其中变电站则是电力生产的主要场所。现阶段,部分变电站处于城市中心或者人口密集中心,供给人们使用