论文部分内容阅读
四维变分同化技术作为数值天气预报的关键技术之一,可将不同地区、不同性质的观测资料随时间的变化信息融入到初始场,从而提高系统的预报质量,因而当前在国际上被认为是最有效的资料同化方案。但其计算过程非常复杂,程序占用内存量巨大,系统的运行时间较长。我国自主研发的新一代数值天气预报系统GRAPES(Global/Regional Assimilation and Prediction System)的四维变分同化系统(GRAPES-4DVAR)也有计算量大,占用内存多,运行时间长的特征。如何针对GRAPES有限区域模式在算法或代码上进行改进,提高其运行效率和并行可扩展性,是本文研究的关键与重点。文章主要从优化程序代码、改进伴随算法、开展混合并行等方面来提高程序的运行效率和可扩展性,研究并实现减少程序运行时间的有效方法。主要内容概述如下:(1)对GRAPES有限区域模式的代码进行调整优化。研究提高内存系统资源利用率和处理器运算部件运行效率的方法,消除代码中对性能有着显著影响的瓶颈因素。通过有效的代码实现,非线性模式的运行效率提高约25%。(2)提出了一种新的伴随模式计算方法—极限断点存储技术。用增加约30%的内存代价换取了程序运行性能100%的提升。(3)提出了一种可实现数据块先进先出与先进后出关系的内存数据管理技术,并实现了该结构-嵌套多链栈。(4)针对GRAPES伴随模式并行读写外部存储器可扩展性受限的问题,提出一种增强性能的改进方案。用有限的内存空间来实现大量中间数据的管理方法,替换了影响性能的外部存储器读写过程,实现了当扩展处理器规模超过128时,可减少70%程序墙钟时间。(5)实现GRAPES的混合并行计算。立足当前流行的集群系统结构,实现了在节点内使用OPENMP线程级并行,节点间使用MPI进程级并行的混合并行来替代纯MPI并行的GRAPES计算方法。得出了当纯MPI并行效率下降到90%以下时,使用混合并行方式,可提高5%到10%左右的结论。