基于负载均衡的Hadoop动态延迟调度机制

来源 :郑州大学 | 被引量 : 0次 | 上传用户:tonytanli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的高速发展和众多数据密集型应用的普及,互联网数据规模呈爆炸式增长。为了应对大规模海量数据的存储和处理问题,云计算技术应运而生且发展迅速,Hadoop作为主流的云计算平台而备受关注,调度问题作为影响Hadoop集群性能的关键因素成为研究的热点。在云计算系统平台中,由于集群中的各个节点通过网络相连,节点之间有限的带宽资源往往成为整个系统的性能瓶颈。因此,如何在公平分配任务的同时减少节点之间的数据传输成为一个非常关键的问题。根据“移动计算比移动数据划算”的原则,可以在保证各个作业公平共享集群计算资源的前提下,提高数据本地性(data-locality,将任务调度到其输入数据所在的计算节点以减少网络传输开销),从而提高了系统性能和作业吞吐量。延迟调度是常用的提高数据本地性和Hadoop集群性能的方法,但现有的延迟调度算法基于固定的等待时间,而且没有充分考虑集群的负载均衡。因此,本文提出基于负载均衡的动态延迟调度机制DDS(Dynamic DelayScheduling)。DDS首先基于灰色预测模型,预测未来时刻空闲节点的到达速率;然后结合集群负载状况和作业执行进度,给每个任务设置合理的延迟等待时间,避免任务的无效等待。任务调度充分考虑节点的实际负载量,防止节点负载过重而导致任务执行缓慢甚至失败,从而缩短作业的总完成时间。实验表明,DDS在作业的总完成时间和负载均衡方面优于传统的延迟调度算法。
其他文献
随着云计算的发展及应用软件的成熟,软件即服务(Software as aService,SaaS)作为云计算的一种应用形式,越来越受到重视,已逐渐成为中小企业应用先进技术的重要途径。SaaS应用交付
随着网络信息技术的发展,互联网数据及资源大幅增加,并呈现出海量特性。为了有效地管理和利用这些海量分布的信息,基于内容的信息检索和数据挖掘近年逐渐成为倍受关注的领域
使用对有种溶解气体分析的方法进行变压器故障诊断,可在变压器运行期进行故障分析的特点,对于变压器维修模式的转变有很大的推动作用,具有重要的研究意义。本文在分析现有变压器故障诊断方法的特点及其存在问题的基础上,将极限学习机算法应用于变压器故障诊断。提出了基于极限学习机的油浸式电力变压器故障诊断方法。分析了不同隐藏层激活函数对极限学习机的诊断性能的影响,给出了诊断的具体实现方法。这种方法有不容易出现局部
随着互联网的不断发展,新型网络应用的不断涌现,特别是语音、视频等多媒体流量的增加,网络信息流量呈现爆炸式增长,带宽资源变得更加紧张,拥塞问题更加严重。另一方面,人们对
智能照明系统在我们的生活中随处可见,一套优秀的智能照明系统不仅能最大限度地节约照明能源,而且能够创造一个良好的、舒适的工作环境,从而提高工作效率。近年来,国家正在大力提
随着计算机技术的不断进步,人类创造的数据正以爆炸式的速度增长,传统的集中式的信息检索在面对海量数据时往往不堪重负,分布式的信息检索系统开始越来越受到人们的重视。集合选
随着互联网的发展和普及,医疗服务类网站越来越多,功能也更加的智能化,网上挂号功能也得到了普遍应用,用户可以不出家门就能在网上预约挂号,方便了用户就诊,传统的导医采用人工方式
数据挖掘是当今计算机研究领域中一个热点问题,它的意义在于从海量数据中挖掘出有效的,新颖的,有潜在应用价值的并且最终可以被人们所理解的知识。传统的数据挖掘关注的是如何找
当今社会,计算机网络发展迅速,确保网络信息的安全性就显得尤为重要。能够主动保护信息安全的入侵检测技术,作为一种保障措施而备受关注。神经网络的优势在于,它能够作为一种方法
社交网络的快速发展使得丰富的社交信息被应用到智能推荐领域,个性化推荐面临着巨大变革。近年来,如何利用社交信息解决推荐过程中的用户冷启动问题并提高推荐结果的准确度成为