处理MapReduce模型中数据倾斜问题的算法

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:lxw19831201
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,每天都有各种各样的电子设备(如:个人计算机,移动智能电话,服务器等)产生大量的多维度的数据。由于MapReduce具有强大的可扩展性、可用性和可靠性,成为处理大数据的著名编程模型。然而,MapReduce编程模型同样具有其局限性,如何减少集群的处理总时间就是其中之一。科学家发现数据倾斜是导致任务总完工时间较大的主要原因,并且已有研究团队从不同的角度提出的一些解决方法,但是这些方法全部是基于第一代Hadoop系统,目前还没有基于Hadoop二代(即Hadoop-Yarn)的可靠算法的提出与实现。本论文正是针对上面提出的问题,以MapReduce模型中的数据倾斜问题为研究对象,对目前解决MapReduce模型中数据倾斜问题方法的不足进行了深入分析,对如何通过降低数据倾斜的程度来减少任务总完工时间进行了详尽的研究。主要内容为:首先,在本文中,对六种算法(Hadoop默认的推测执行,SkewReduce,SkewTune,iShuffle, LEEN和LIBRA)在架构、主要特征、核心算法、性能度量和评估方法方面进行了分析与对比,以充分理解和掌握数据倾斜问题最新研究状况和第一代算法的优缺点;其次,针对一批Hadoop任务的数据倾斜问题,通过对资源均衡化,动态调整Hadoop资源的分配,提出离线和在线的HScheduler算法,减小数据倾斜对总完工时间的影响,并通过计算算法的竞争比来提升该算法的质量;接着,针对单任务的数据倾斜问题,提出基于Hadoop-Yarn的YarnTune算法解决数据倾斜问题,通过在任务中检测数据倾斜,进而减少数据倾斜的影响,减小任务总完工时间,提升Hadoop总体性能;最后,本文通过搭建Hadoop平台进行数据测试,并用原始系统将上述算法的试验结果进行了对比,验证了本论文的算法和实现能够有效减少数据倾斜对任务总完工时间的影响,平均减少了 15%左右的总完工时间。
其他文献
中国与东盟国家既有产品内贸易模式存在不足,还只能被动地承受欧美等发达经济体需求下降所引发的国际市场的波动。产品内贸易模式的深化,需要中国将产业链的某些环节布局到一
<正>成就性报道作为深度报道的一种,一般采用综述的体裁,是党报在重要时间节点经常采用的一类新闻手法,也是传统的拳头产品。这类报道主题明确,立意较高,时间跨度大,涉及领域
高超声速进气道攻角特性与高超声速飞行器性能密切相关,具有重要的理论意义和工程应用背景,是国内外研究者关注的重要问题。针对高超声速飞行器在飞行过程中,俯仰姿态可能发生大
马克思贫困治理理论是特定历史条件下的产物,它的形成和发展都有十分坚实的理论和现实基础。资本主义制度决定论、剩余价值理论、劳动异化理论、资本有机构成理论都深刻地揭示
云南省由于其独特的地理位置,具备大量可利用的水力资源,成为了一个能源生产的大省。与此同时,云南省的环境问题也日趋严重,虽然污染程度仍低于全国平均水平,但近两年有上升趋势,2017年轻度及以上污染天数累计相较2016年增加了6天。积极推进电能替代可以有效减少环境污染问题,也可以缓解能源安全问题,大力发展电力是构建可持续发展和谐社会的最有效的方法之一。研究云南省电源消费结构,提出针对云南省能源特点的电
本文是一篇关于日本民俗作品《阿伊努神话》『アイヌ神話』的翻译报告,该作品由北海道民俗学家、学者中田千亩收集整理,于大正十三年即1924年由报知出版部发行出版,现国内尚
杜夫海纳《审美经验现象学》的引言初步勾勒了他所理解的现象学方法。以这篇引言为中心,适当参照其他现象学美学家如海德格尔、英加登、盖格尔的某些观点,便可以管窥现象学美
汽车安全防护是汽车设计人员和驾驶人员关注的重点问题之一,侧面安全气囊可以降低侧面碰撞事故发生时,乘客受到车辆侧面溃缩而造成的伤害,大大减少乘客承受的伤害。但是,当气囊点爆时,它也会携带一些新的冲击力,在某些情况下,气囊打开造成的能量将会对乘客造成额外的冲击力,严重时甚至可以致命。因此,侧面安全气囊的布置与改进设计已经成为研究热点之一。本文以某国产车型的侧面气囊为基础,介绍侧面安全气囊在乘客基于不规
价值链理论是全球化——多国家经济整合与产品过程分解并存体系下的一个重要研究领域。竞争范畴是价值链理论拓展的基石和逻辑基础,它由细分范畴、纵向范畴、地理范畴以及产业
建立了快速、灵敏、可靠的液相色谱串联质谱(LC-MS/MS)方法,用于同时测定治疗稳定期精神分裂患者血浆中4种非典型抗精神病药物利培酮、氯氮平、奥氮平、阿立哌唑和2种的代谢