论文部分内容阅读
随着晶体管集成技术和存储器技术的发展,应用程序对计算能力需求的增长,高性能计算机系统的计算结点规模持续增大。高性能计算机系统的互连网络子系统对系统整体的成本开销、吞吐率、能耗、容错以及物理部署复杂度都具有重大影响。低直径拓扑结构是一种高效、低延迟的高性能互连网络解决方案,也是高性能互连网络的发展趋势。不断增长的规模扩展需求,给低直径拓扑结构设计带来了巨大挑战。物理器件的发展无法满足规模扩展的需求,缓存资源不能满足路由算法的需求,物理封装的复杂度不断增加,成本和能耗开销不断上升等问题已成为制约高性能互连网络发展的重要因素。本文针对网络拓扑结构如何在当前物理器件约束下应对E级计算系统网络规模需求与物理布局布线的复杂度,路由算法如何解决缓存资源利用率低等问题,分别对规模灵活、易于布线的网络拓扑结构设计以及可高效利用缓存资源的路由算法设计等挑战性问题进行深入研究。本文的工作主要包括:(1)针对在E级计算的挑战下,因路由器端口数约束造成当前网络拓扑结构规模受限、灵活性低、网络性能不足等问题,提出一种高性能互连网络新型拓扑结构Galaxyfly。Galaxyfly基于代数图论有限域的方法构建,其降低了对高阶路由器端口数的要求,可以使用较少的端口数满足E级计算系统的规模需求,在保持低直径的情况下,Galaxyfly可以达到网络规模与二分带宽的灵活折中。利用其代数图论的性质,设计了用于Galaxyfly的拥塞敏感的路由算法。分别从性能、成本和能耗三方面与其他新型高性能互连网络拓扑结构进行了实际物理布局的模拟和分析比较,结果表明,相比其他拓扑结构,Galaxyfly在不同的路由算法以及典型的通信模式下,能够展现更优的性能,是一个适合构建E级计算系统的新型高性能互连网络拓扑结构。(2)针对在E级计算的挑战下,当前高性能互连网络的网络性能、可维护性以及物理封装等方面的不足,提出一种适合使用多芯光纤的高性能互连网络新型拓扑结构Bundlefly。Bundlefly是一个低直径、可灵活扩展并且适合采用多芯光纤作为机柜间连线的拓扑结构。随着集成光模块板的发展,一根多芯光纤可以替代一捆传统的单芯光纤,不仅可以降低光纤的使用成本还可以提高光纤的可维护性。在保证网络直径只有3的前提下,Bundlefly不仅能够充分利用多芯光纤来提高机柜间的通信带宽,还能降低对高阶路由器的端口数要求以支持E级系统的规模。分析和模拟的结果表明,与其他新型高性能互连网络拓扑结构相比,Bundlefly表现出更优的性能。(3)针对目前高性能互连网络自适应路由算法对虚拟通道数量要求过高以及缓存资源利用不均衡的问题,提出了一种标签路由算法Label-based Routing(LBR)。LBR通过协同设计路由器微体系结构中的输入缓冲区模块和路由计算模块,将路由计算引入缓冲区模块,根据网络状态对路由报文做标记。有效实现完全自适应路由的前提下,LBR不仅降低了死锁避免对虚拟通道数的需求,还使缓存资源利用更加均衡。通过在Dragonfly上模拟不同的路由算法,在大部分通信模式下,LBR的性能超出其他路由算法约10%-35%。