Hadoop平台下基于数据量的资源分配预测策略

来源 :长沙理工大学 | 被引量 : 1次 | 上传用户:cntanmingyong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,大数据处理己成为各个行业的讨论和研究热点。负载均衡是分布式大数据集群计算中非常关键的策略,它影响到集群的处理效率和作业的完成时间。Hadoop作为目前广泛使用的分布式集群处理平台,被学术界和工业界的广泛使用,但其在负载均衡方面仍有改进和提升的空间。例如,中间数据分配均衡策略较为简单,在处理具有某些特性的数据时,可能会出现数据分配不均的问题,影响集群处理效率,情况严重时甚至会加重负载的不均衡。本文首先介绍了 Hadoop平台的产生背景与发展历史、相关工作,以及它的关键技术——分布式文件系统(HDFS)与分布式计算框架(MapReduce)的组成架构和核心原理,然后研究了 Hadoop原生的中间数据分配均衡策略,详细分析了数据分配策略的工作原理、存在的不足和改进目标。针对目前原生中间数据分配策略HashPartitioner存在的负载均衡问题,本文提出基于数据量的资源分配预测策略。在大数据作业运行时,预测处理节点的数据量大小,及时调整轻重节点的计算资源分配,平衡轻重节点的处理完成时间。本策略既可保证原负载均衡策略的通用性,又可改善由于数据负载不均衡带来的集群效率下降的问题。最后对该策略进行实现和实验验证,实验结果表明,改进后的数据分配策略可有效平衡不同负载的任务完成时间,并缩短作业的完成时间,提高Hadoop平台的处理效率。
其他文献
This Research treats Pakistanis post-graduate students’ diverse experience of change after moving from Pakistan to China.The research studies how students nego
始于清末的中国近代司法改革,司法独立始终是其基本目标和重要诉求。社会各界主张司法去行政化呼声愈高,政府在司法改革方面的作为越发受到关注。尤其在南京国民政府成立后,
目的:本研究旨在通过理性、科学、严格的试验设计以观察针刺结合痧点刺络拔罐对瘀滞型肩周炎治疗的临床疗效,且与针刺结合拔罐治疗作为对照组进行对比,观察指标是视觉模拟评分法和MELLE肩关节活动评分,研究治疗组与对照组之间的疗效和差异,详细地分析及讨论针刺结合痧点刺络拔罐对瘀滞型肩周炎治疗上的特点与优势之处。为瘀滞型肩周炎治疗提供更为有效的临床疗法,并能更好的为临床的综合治疗方案推广应用提供详尽的理论与
目的:基于对广东省中医院2003-2014年的所有科室的2型糖尿病合并甲状腺疾病的住院患者进行挖掘分析,以了解2型糖尿病合并甲状腺疾病患者的诊疗信息规律和中医证候规律,为2型
近年来,人脸识别已广泛应用于视频监控、金融支付等多个领域,体现出重要的商业价值和应用前景,而如何准确、有效的进行人脸识别,提升信息安全成为一项重要的研究课题。非负矩
人体的检测和行为识别作为计算机视觉领域的研究热点问题,融合了人工智能、机器学习、模式识别等许多领域的先进技术,在智能监控、人机交互、智能机器人等领域有广泛的应用前
2003年,分众传媒正式成立,并在过去的十几年间取得优异的成绩,尤其是在楼宇广告板块,一直是行业的排头兵。2018年第十七届中国广告与品牌大会,分众传媒因为其为广告行业做出的卓越贡献而被授予“中国广告年度价值媒体大奖”。虽然分众传媒与在与其他公司的竞争中一直处于优势,但是公司内部的状况却不尽如人意。受新媒体快速发展的影响,分众传媒业绩在过去几年开始呈现下滑趋势,2019年其营业收入和净利润更是同比
图像包含丰富的视觉信息,并在人们的生活中扮演着不可或缺的角色。图像自动描述是实现图像理解的一项关键技术。图像自动描述,即根据对图像上下文信息的理解,通过语言模型生
随着国内机动车排放法规的日益严格,铈基催化型微粒捕集器作为一种可以有效降低柴油发动机排气中颗粒物排放的装置,得到了广泛的关注。在车辆行驶的过程中,铈基催化型微粒捕集器中碳烟颗粒在过滤体中不断沉积,导致发动机排气背压增大,引发发动机进气不畅及排气不完全等问题,使得发动机缸内燃烧恶化,污染物排放急剧上升。因此铈基催化型微粒捕集器中碳烟颗粒再生成为必须解决的关键问题。由于发动机排气温度以及排气中NO2含
在大学办学自主权诉求日益加强与去行政化呼声不断的当下,高校教师参与治理的重要性越发凸显,亟待我们对高校教师参与治理的丰富内涵展开探讨。基于大学的组织特征与民主协商