论文部分内容阅读
世界正朝着多样性计算时代发展,摩尔定律正在被重构。尽管以Intel和AMD代表的x86架构的处理器凭借高性能和通用性强等特点一直在高性能计算(High Performance Computing,HPC)服务器领域占据主要地位,但在构建下一代百亿亿次超级计算机时却面临着能耗问题的巨大挑战。这几年一直活跃于移动、嵌入式终端市场的高级精简指令集处理器(Advanced RISC Machine,ARM)以低功耗和高性能有望在HPC系统的能耗瓶颈上展现优势,它在ARM上的性能到底如何以及哪种应用更适合这种架构成为HPC领域研究者最关注的问题。之前大多数的研究都只关注ARM系统的能耗比,而少有面向HPC领域的性能评测,尤其对ARM计算架构进行HPC应用移植并做优化的研究工作也比较缺少。首先,论文分析了HPC领域主流的计算架构及它们应用市场,着重介绍了ARMv8-A架构及其特点;然后,基于HPC应用的特点提出了一种基于测试对象的HPC系统性能评测体系。利用该评测体系的系统组件对象,采用HPL、HPCG、STREAM、IOZone、OMB等基准程序来着重比较和分析ARM(鲲鹏920处理器)和x86(Intel至强6146处理器)在浮点计算力、持续内存带宽、磁盘读写性能以及网络等方面的性能差异。利用两类典型的HPC应用作为该评测体系的实际应用对象,通过真实算例的运行速度,性能基准等来分析应用在两个系统单核、多核及多节点的实际性能;最后,以分子动力学模拟软件——GROMACS为例,研究了该软件从x86到鲲鹏920 ARM服务器的移植过程,并通过硬件、软件两个层面对移植后的GROMACS进行了优化,分析该软件移植及优化后的性能表现。从本文实验结果来看,鲲鹏920处理器单处理器浮点计算力约为商用至强6146处理器的三分之一;在单节点内可持续内存带宽方面,鲲鹏920处理器凭借多核和多内存通道的优势,能够实现近乎线性的访存带宽增长;在磁盘读写性能方面,ARM平台下的磁盘在新旧文件的读写方面性能表现更为优越;在网络延迟上,ARM较x86系统在点对点通信延迟方面表现更好,而在网络带宽方面,ARM在大文件传输上展现一定的优势。同时实验得出,ARM在计算密集型计算任务(如NAMD)上计算能力要低于x86,而在WRF这类大内存带宽需求的应用,ARM较x86有2~5倍的性能提升。通过移植并优化后的GROMACS较x86实现了10.7%的性能超越。考虑购置成本,性能损耗等因素,鲲鹏920处理器在构建HPC系统时有着一定的竞争力,具有一定的研究和应用前景。