论文部分内容阅读
伴随着大数据时代的到来以及云平台上应用的不断增长,日益增长的网络流使数据中心的网络流调度问题更具挑战性。在当前的数据中心网络中,通常使用MapReduce,Spark等大数据处理平台对数据进行处理和分析。MapReduce的Reduce阶段需拉取其他节点Map任务的结果。跨节点拉取数据时,需对这些并发数据流的完成时间进行优化。随着云计算以及移动互联网的加速发展,数据中心正处于快速发展阶段,需对数据中心的网络流调度问题进行进一步研究。网络流调度问题通常采用的是最小瓶颈先行算法,在为当前最小瓶颈的网络流进行调度的这段时间内,可能会存在一些未被该网络流占用的剩余带宽,剩余带宽分配问题的核心在于如何确定填充剩余带宽的网络流顺序,即哪些流可以优先使用这些剩余带宽。常用的方式是计算在当前剩余带宽条件下,可优先使用剩余带宽的最优填充网络流,但并未考虑到当正进行调度的网络流完成时,当前被占用链路的带宽恢复,网络流在剩余带宽限制下的瓶颈流可能并不是各网络流真正的瓶颈流,而具有最小瓶颈的网络流却未能充分利用剩余带宽对瓶颈流进行提前传输,其完成时间存在较大的优化空间。鉴于上述问题,本文首先研究了剩余带宽分配问题,该方法可被分为两个阶段,在第一阶段对网络流进行排序,计算最优填充网络流队列:在第二阶段为各网络流分配带宽,考虑在不增加该网络流完成时间的同时,尽力为其他等待调度的网络流让出更多带宽,可有效降低网络流的平均完成时间。同时考虑到数据中心上的应用具有不同的时间敏感度,面向用户的应用通常对时间延迟具有较高的要求,如搜索和推荐服务;后台背景应用通常对时间的敏感度不高,如业务数据的离线分析。数据中心上的应用产生的这两类网络流,可被称为混合流。针对数据中心的混合流调度问题,本文提出了一种基于稳定匹配的混合流带宽替换方法,无截止时间网络流可为有截止时间网络流让出当前占据的链路带宽,用于保证有截止时间网络流能在截止时间之前完成,同时为无截止时间网络流让出足够多的带宽,保证这部分带宽能最大程度降低无截止时间网络流的平均完成时间。