论文部分内容阅读
随着计算机异构系统结构和高性能CPU等技术的飞速发展,以“天河二号”为代表的超级计算机的峰值计算性能已经达到54.9PFlops,正在向EFlops规模发展。CPU、内存、互连网络和外部设备是构成超级计算机的主要部件,前三者是光电类型器件,而作为主要外部设备之一的存储设备是机、电、磁一体的设备,它们之间的发展速度有很大差距。通常访存和通信带宽约为每秒几GB,延迟约为几纳秒,但是以磁盘为主体的存储设备的带宽约为每秒几十到几百MB,访问延迟为几毫秒。计算、仿存和通信性能与I/O性能的严重不均衡,极大的影响了应用程序的执行性能。为此,需要对高性能计算应用程序使用的计算、内存和I/O资源进行分析,以便了解应用程序的运行特性以及系统在访存和I/O方面存在的性能问题,研究解决问题的方法。本文围绕对高性能计算应用程序的特性分析主要展开了以下研究工作:(1)分析了当前超级计算机的组成结构与发展现状,研究了超级计算机的存储系统以及高性能计算应用程序对内存和I/O的需求。(2)分析了TH-1A上高性能计算应用程序对内存的使用情况,发现其中存在着内存使用不充分而带来的内存浪费问题。研究了优化内存结构的技术方法。(3)提出了一种基于NBD机制使用远程结点内存构建Page Swap区的内存优化技术。该技术利用了超级计算机中通过网络访问远地内存性能优于访问本地磁盘性能的特点,采用了远程内存交换盘技术,使得本地结点在内存紧张时可将页面交换到远地结点的物理内存上,可以有效提高TH-1A上的内存使用率。(4)研究对高性能计算应用程序进行I/O特性分析的技术方法,设计一个能在TH-1A上高效运行的I/O Trace收集和分析工具。(5)利用该工具首先对benchmark程序MADbench2和b_eff_io的I/O行为进行监测,然后对TH-1A上典型的数据密集型应用石油地震勘探中的抽道集程序进行I/O特性分析,了解了这些程序的I/O特点,可以帮助我们有针对性的优化应用程序,缓解系统的I/O瓶颈问题。