论文部分内容阅读
随着云计算技术在大数据、人工智能等领域的应用和发展,作为云计算核心支撑平台的数据中心网络近年来也得到了深入的发展。数据中心将网络资源、计算资源、存储资源以及其他辅助资源(例如,FPGA、ASIC等)整合为一个统一的整体,已经成为云计算、人工智能、移动计算等计算密集型业务的基础设施,其运行效率直接决定了这些业务的服务质量。而在现有的数据中心网络中,大部分应用仍使用TCP协议进行数据传输。数据中心网络高带宽、低延迟等特性与传统广域网的特性差异较大,传统TCP协议在数据中心网络中的运行效率较低,会引发TCP Incast、TCP Outcast等一系列问题。本文重点关注了数据中心网络中的TCP Incast问题,该问题是指在“多对一”数据传输模式下,由于交换机缓存溢出而引起的网络吞吐率出现灾难性崩溃问题。TCP Incast问题的产生将使网络吞吐率急剧下降,并可能导致任务错过截止完成时间而被丢弃,影响计算结果的质量和用户体验。因此,如何缓解该问题以为分布式存储、web搜索等云计算任务提供高效率的数据传输服务是具有实际应用价值的重要课题。本文从数据中心网络和传统TCP协议的特性出发,详细分析了TCP Incast问题产生的根本原因,从单轮数据传输、多轮数据传输及延迟ACK机制对异构数据中心网络的影响三个方面出发,对数据中心网络“多对一”流量传输模式的效率进行优化。研究内容和取得的研究成果如下:(1)对数据中心的发展和网络拓扑结构、软件定义网络等数据中心网络技术展开了讨论,并深入研究了数据中心网络的传输协议,总结了近年来针对TCP Incast问题的主要解决方案,详细分析了传统TCP协议运行在数据中心网络中存在的问题及其根本原因。(2)设计了基于数据包标记实现丢包快速发现和快速恢复的TSL算法,用于解决单轮数据传输下的TCP Incast问题;设计了拥塞自适应的窗口调整策略,用于解决异构数据中心环境下,由延迟ACK引发的吞吐率与支持并发数之间的矛盾;针对多轮数据传输下,TCP及现有改进方案性能下降的问题,提出了窗口对齐策略,以动态调节拥塞窗口初始值。(3)在NS3仿真平台上分别实现了上述三大策略,并设计了相关仿真实验对其有效性和优越性进行验证。实验结果证明,本文提出的解决方案可较好地适应异构数据中心网络环境,大大提高了数据中心网络中“多对一”流量传输模式的传输效率。对提高数据中心网络设备的工作效率,为云计算、人工智能等应用提供高效可靠的数据传输服务有重要意义。