论文部分内容阅读
随着互联网技术的高速发展和众多数据密集型应用的普及,互联网数据规模呈爆炸式增长。为了应对大规模海量数据的存储和处理问题,云计算技术应运而生且发展迅速,Hadoop作为主流的云计算平台而备受关注,调度问题作为影响Hadoop集群性能的关键因素成为研究的热点。在云计算系统平台中,由于集群中的各个节点通过网络相连,节点之间有限的带宽资源往往成为整个系统的性能瓶颈。因此,如何在公平分配任务的同时减少节点之间的数据传输成为一个非常关键的问题。根据“移动计算比移动数据划算”的原则,可以在保证各个作业公平共享集群计算资源的前提下,提高数据本地性(data-locality,将任务调度到其输入数据所在的计算节点以减少网络传输开销),从而提高了系统性能和作业吞吐量。延迟调度是常用的提高数据本地性和Hadoop集群性能的方法,但现有的延迟调度算法基于固定的等待时间,而且没有充分考虑集群的负载均衡。因此,本文提出基于负载均衡的动态延迟调度机制DDS(Dynamic DelayScheduling)。DDS首先基于灰色预测模型,预测未来时刻空闲节点的到达速率;然后结合集群负载状况和作业执行进度,给每个任务设置合理的延迟等待时间,避免任务的无效等待。任务调度充分考虑节点的实际负载量,防止节点负载过重而导致任务执行缓慢甚至失败,从而缩短作业的总完成时间。实验表明,DDS在作业的总完成时间和负载均衡方面优于传统的延迟调度算法。