MapReduce中连接负载均衡优化研究

来源 :2014全国理论计算机科学学术年会 | 被引量 : 0次 | 上传用户:amies
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据分析和处理是大规模分布式数据处理应用中的重要任务.由于简单易用和具有灵活性,MapReduce编程模型逐渐成为大规模分布式数据处理系统(如Hadoop系统)的核心模型.由于处理的数据可能不是均匀分布,MapReduce编程模型在处理连接操作时,会出现数据倾斜问题.数据倾斜问题严重降低MapReduce执行连接操作的效率.针对MapReduce中连接操作的数据倾斜问题,分析了形成MapReduce连接性能瓶颈的原因并建立负载均衡代价模型,提出了用范围分割(rangepartitioner)方法控制连接过程中的数据倾斜问题实现负载均衡的策略.实验结果表明所提出的方法明显提高了连接的效率.
其他文献
人机体内部的温度,就是我们常说的体温,一个健康成年人的体温始终保持在一个稳定的指标范围,通过这个指标就能反映这个人的健康状况。作为五大生命体征之一的体温,它与健康的
反季菜花--冬丰反季菜花冬丰是单县农作物良种研究所培育的可露地越冬的菜花新品种。-12℃低温下基本不会受冻害,由于整个生长期是寒冷的冬季,没有病虫害发生, Anti-season
网络可靠度BDD分析方法的计算复杂度与BDD尺度线性相关,而BDD尺度严重依赖边排序质量.由于求解最优边排序是一个NP问题,在实际应用中,通常采用启发式边排序策略如BFS(Breadth
会议
实际最优化问题的性质与特征繁多,但总体上最优化问题的种类能归结为三类:显式性能优化问题、隐式性能题和混介目标优化问题。然而,现实生活中隐式性能优化问题随处可见,如艺术
会议
秋冬茬黄瓜的上市时期应安排在秋延后黄瓜之后、越冬茬黄瓜之前;管理上应遵循“前期养好秧,后期拿产量”的原则,努力做到养秧、保秧与提高产量相结合,提高产量与增加产值相结
大棚西瓜选留二茬瓜的方法有以下两种:即在头茬瓜采收前选留和在头茬瓜采收完毕剪叶促枝后再选留。两种方法各有优缺点,笔者建议瓜农选择第二种方法为好。
为了增强通讯网络安全性,研究者致力于通讯协议的形式化分析与验证。Abdelmajid在Kerberos协议中添加用户物理位置作为新的认证因素得到改进协议,并用改进BAN逻辑说明改进协
模糊综介评判是对受多种因素影响的事物做出全而、客观评价的一种十分有效的多因素决策方法。它可以解决因素与结果之间的关系不能用精确的数学模型来描述的很多实际问题,很好
会议
这三张全家福照片,在传统影像风格中融入了创新的元素,深受广大顾客的喜爱,在当地市场具有良好的口碑和反响。我们还为全家福照片配备了更易保存的相册,更精致的相框,在版式
三星 DV-500影碟机在我国拥有的数量较大,目前,该机型已进入维修期,下面介绍五个检修实例,仅供同行参考,以期达到抛砖引玉的目的。例1 故障现象:重放 CD 碟片图像与伴音均正