论文部分内容阅读
为降低Hadoop Map Reduce环境中任务的数据访问延时进而提高系统性能,提出一种基于PUSH机制的任务调度方法。该方法根据输入数据分布,主动将任务推送到存储其输入数据的节点。当任务在这些节点执行时,可以直接从本地磁盘读取数据,从而避免远程数据访问延时。该方法已在hadoop-0.20.2中实现,并在真实集群中进行验证。研究结果表明:与原有调度方式相比,该方法可将作业执行时间平均降低8%,在最好情况下可降低14.3%。