基于Maxdiff直方图的MapReduce负载均衡研究

被引量 : 0次 | 上传用户:meomeo38
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着信息技术的快速发展,互联网、社交网络和物理信息系统等技术渐趋成熟,物联网领衔的云计算、混合云计算和自然语言问答等新兴技术突飞猛进,科学研究、电子商务和医疗保健等领域累积的数据已达TB级以上,大数据已经普遍存在于各个领域。传统数据处理技术在性能扩展方面遭遇瓶颈,已经不能满足大数据的分析需求,以Map Reduce为代表的批处理计算技术引起了学术界和工业界的广泛关注。Map Reduce计算模型充分利用分布式计算和存储资源,把数据和计算任务分配到数以千计的廉价物理节点上,提供海量存储能力和并行计算能力。作为处理海量数据的分布式大规模集群计算框架,Map Reduce性能好、性价比高、稳定性强,因此成为大数据环境下备受关注的数据处理技术,Map Reduce负载均衡问题作为影响集群吞吐率的关键因素成为学术界的研究热点。分布式计算环境下,数据分布的均匀程度很大程度上影响着集群的性能。然而,当前Map Reduce在数据混洗阶段多采用哈希随机划分为Reduce阶段分配数据,当数据分布倾斜时,会造成Reduce阶段各节点负载不均衡,从而导致集群吞吐率降低。因此,本文提出一种基于Maxdiff直方图的负载均衡方法MHLB(Maxdiff Histogram Load Balance)。MHLB首先基于预处理技术,采用Maxdiff直方图估计Map阶段输出中间结果的数据分布情况;然后基于贪心策略提出改进的数据划分方法,实现数据混洗过后数据记录的均衡划分。实验结果证明,在同构集群下,较之标准Map Reduce,负载均衡方法MHLB可有效实现各Reduce节点的负载均衡,降低作业运行时间。
其他文献
目的通过比较连续性血液净化与持续血液透析的治疗效果,从而评价连续血液净化在重症医学患者治疗中的应用效果。方法选择2010年4月-2013年4月到某院进行血液净化治疗的重症患
原料药质量优劣是药品质量控制的关键和源头。原料药杂质研究及控制又是原料药质量保证的关键要素之一,也是保证药品安全性和可控性的重要评价指标。本文从原料药的杂质分类
<正>根据财政部、国家税务总局发布的《农产品增值税进项税额核定扣除试点实施办法》(财税[2012]38号)规定,2012年7月1日开始,我国以生产乳及乳制品,酒及酒精、植物油的一般
声乐艺术是人类文明中的重要部分,是人们喜闻乐见的艺术形式。中国的民族声乐艺术在曲折中慢慢成长起来,它经过了建国初期的“土洋之争”的洗礼,看清了自身的缺点和不足,经过
本文综述了酶在速溶茶加工工艺中的应用,包括酶的辅助浸提、酶解澄清等,酶用于速溶茶加工工艺中存在的问题及应用前景。
在全科医生缺乏的现实背景下,政府大力推行医生多点执业政策,但实行以来却遭遇许多阻力。本文在深入分析阻力原因的基础上提出有效实施医生多点执业的几点建议。
文中使用了一种较为简单但非常实用的设计方法,采用四节八晶体差接桥型电路,设计和研制出了一种小型化低损耗中等带宽的石英晶体滤波器。该产品的中心频率为10.7 MHz,通带带
目的分析目前护患矛盾中由于护士自身原因引起的护患矛盾,对护士的人文素养进行探讨。方法对本院92名护士进行问卷调查,分析和讨论护士人文素养在工作中的重要性,护士接受人
目的了解流动人口社会融合与其健康的关系,提出健康促进建议。方法采用应答推动抽样(RDS)在成都市调查1 270名流动人口,以对象自评健康状况为应变量构建结构方程模型。结果所
目的探讨脑卒中患者偏瘫肢体肌电生物反馈治疗联合运动疗法的家庭康复效果。方法选取本院收治的脑卒中偏瘫患者58例,数字随机分为2组,对照组28例采取神经内科药物+运动疗法治