论文部分内容阅读
机群结构的超级计算机性能已经跨越百万亿次向千万亿次发展,可扩展性一直是超级计算机面临的最大挑战之一。超级计算机在软件层次的可扩展性研究远远滞后于它在系统结构(硬件)层次的可扩展性研究。本文旨在研究机群软件(主要是指MPI并行应用和机群管理软件)的可扩展性及其优化技术。
随着大规模多核处理器机群的出现和普及,给机群软件的性能和可扩展性带来了深远影响。通信开销是影响并行应用可扩展性的关键因素之一,而多核处理器机群带来了更加复杂的存储层次化,严重影响着并行应用的消息通信性能。本文的研究动机之一在于给出多核机群平台上精确的通信性能分析模型以及MPI集合通信的性能优化方法。另外,随着机群规模的不断增大,为了保障超级计算机能够高效可靠地运行,机群管理软件的可扩展性问题变得更加突出。由于机群管理软件是一类特殊的分布式应用,它的性能瓶颈和可扩展性主要受不断增大的机群规模影响,不同于并行应用的可扩展性问题。因此,本文的研究动机之二在于给出机群管理软件的可扩展性计算模型以及机群管理软件的可扩展性优化技术。
本文主要的研究成果或创新点如下:
1.多核处理器机群存储层次化具有纵向和横向两方面特征,目前缺少与之相适应的并行计算模型去有效地分析消息通信性能。本文提出了新的存储层次化并行计算模型,对多核机群存储横、纵向层次化特征进行了统一的抽象。该模型有助于多核机群平台上消息通信性能的精确分析,对MPI集合通信性能的优化具有指导意义。
2.在新的并行计算模型的指导下,针对存储横向层次化特征,提出了多核机群MPI集合通信的性能优化方法。据此方法优化后的广播算法性能提升至少约16.8%。
3.参照并行应用的等效率可扩展性计算模型,本文提出了机群管理软件可扩展性计算模型:TRU效率模型。此模型分析了机群管理软件可扩展性问题的本质,对机群管理软件可扩展性优化具有指导意义。
4.在TRU效率模型的指导下,参照大规模分布式软件的设计方法,提出了可扩展机群管理软件的设计模式,广泛应用于曙光系列超级计算机各种机群管理软件的设计中,从而证实了该设计模式的可行性。