论文部分内容阅读
“天河二号是个多面手。”国防科技大学计算机学院教授、博士生导师、天河高性能计算机系统副总设计师卢凯这样形容刚刚登顶世界超级计算机500强排行榜的天河二号,它“不仅是为了满足传统的高性能科学计算需求来进行构建的,也兼顾了信息处理、数据分析等需求”。
这个多面手该如何好好加以利用?“天河二号将作为广州超算中心的业务主机,今年年底安装到广州超算中心,主要用于科学计算、工程计算以及信息化服务等多个领域。”卢凯进一步介绍了天河二号下一步将如何大显身手。
四大技术特点
对于天河二号这样一个“性能巨兽”,卢凯介绍了它在技术上所具备的独特之处:定制化的体系结构设计、微异构的计算阵列、自主软硬件联合优化以及新型编程模型。
“‘异构多态’的体系架构让天河二号不仅能满足以计算为核心的需求,也能满足以I/O为核心的需求,同时适应面向带宽和面向吞吐量的模式。”卢凯详细解读了这四个引以为傲的技术特点,“与英特尔合作搭建的微异构计算阵列,采用英特尔至强和至强融核,保证了第三方应用软件的兼容性、适用性和易用性。 ”
而在自主开发方面,与天河一号一样,天河二号采用了在国家“核高基”重大专项支持下自主设计制造的微处理器,用于事务处理和信息服务。此外,在网络方面,天河二号在软硬件联合设计和优化上都达到了一个新的高度,充分考虑到系统的可扩展性;在存储方面,加大了对大数据的支持力度;在软件方面,尤其是系统管理方面,天河二号采用了诸如多层次容错设计、机器管理机器的自治故障管理技术等,使系统能够及时地发现、诊断和处理故障。
OpenMC这一新型编程模型在天河二号中的采用,可以在尽量减少性能损失的情况下,方便用户应用的开发。“英特尔微异构处理器都采用x86的指令集,完全兼容,这使得编程开发环境变得非常简单有效。”英特尔公司软件与服务集团客户响应团队经理乔楠补充说道。
“天河二号的成功,得益于天河一号的经验传承,我们可以顺利地进行系统调试和优化,拿下TOP500的第一名也是情理之中了。”卢凯表示,这一荣誉不是目的而是结果。
不断演进的决心
天河一号的计算节点数不到8000个,而天河二号的计算节点数为1.6万个,回顾这一突破进程中所遇到的困难,卢凯表示,对系统的认识水平位于哪一个层面很重要,找到瓶颈并消除是关键。
“下一步,我们会向着3万个或者5万个计算节点扩展。”卢凯根据此前的经验教训,总结了可能会碰到的三个主要挑战:能耗、可扩展性和可靠性,“如何采用更低能耗的计算器件和更低能耗的冷却制冷体系,我认为这是未来要攻克的第一个难题。系统计算节点数超过一定数目后,目前采用的互连结构就不再适用,因此系统结构需要做出较大调整以在成本、互联通信、带宽和延迟方面均获得良好表现。这就是可扩展性的体现。可靠性则指的是及时发现故障、管理故障和排除故障。系统的规模与其可靠性是成反比的,可靠性的保障是系统规模增大时一个很重要的问题。”因此,天河二号全体研发人员仔细梳理天河二号所遇到的技术瓶颈,并考虑规模扩展时可能发生的情况,通过模拟环境进行仿真,为下一代系统的设计提供指导和依据。
从天河二号即将成为广州未来的政务信息化、云计算应用的高性能平台来看,使用超级计算机来近距离服务社会和民生将是大势所趋。“我们将会在软件的移植和优化上给予帮助,以保障各种应用的有效实施。”卢凯强调,对于天河二号的利用是生态圈内各方明确职责、恪守职责的共同效应。
这个多面手该如何好好加以利用?“天河二号将作为广州超算中心的业务主机,今年年底安装到广州超算中心,主要用于科学计算、工程计算以及信息化服务等多个领域。”卢凯进一步介绍了天河二号下一步将如何大显身手。
四大技术特点
对于天河二号这样一个“性能巨兽”,卢凯介绍了它在技术上所具备的独特之处:定制化的体系结构设计、微异构的计算阵列、自主软硬件联合优化以及新型编程模型。
“‘异构多态’的体系架构让天河二号不仅能满足以计算为核心的需求,也能满足以I/O为核心的需求,同时适应面向带宽和面向吞吐量的模式。”卢凯详细解读了这四个引以为傲的技术特点,“与英特尔合作搭建的微异构计算阵列,采用英特尔至强和至强融核,保证了第三方应用软件的兼容性、适用性和易用性。 ”
而在自主开发方面,与天河一号一样,天河二号采用了在国家“核高基”重大专项支持下自主设计制造的微处理器,用于事务处理和信息服务。此外,在网络方面,天河二号在软硬件联合设计和优化上都达到了一个新的高度,充分考虑到系统的可扩展性;在存储方面,加大了对大数据的支持力度;在软件方面,尤其是系统管理方面,天河二号采用了诸如多层次容错设计、机器管理机器的自治故障管理技术等,使系统能够及时地发现、诊断和处理故障。
OpenMC这一新型编程模型在天河二号中的采用,可以在尽量减少性能损失的情况下,方便用户应用的开发。“英特尔微异构处理器都采用x86的指令集,完全兼容,这使得编程开发环境变得非常简单有效。”英特尔公司软件与服务集团客户响应团队经理乔楠补充说道。
“天河二号的成功,得益于天河一号的经验传承,我们可以顺利地进行系统调试和优化,拿下TOP500的第一名也是情理之中了。”卢凯表示,这一荣誉不是目的而是结果。
不断演进的决心
天河一号的计算节点数不到8000个,而天河二号的计算节点数为1.6万个,回顾这一突破进程中所遇到的困难,卢凯表示,对系统的认识水平位于哪一个层面很重要,找到瓶颈并消除是关键。
“下一步,我们会向着3万个或者5万个计算节点扩展。”卢凯根据此前的经验教训,总结了可能会碰到的三个主要挑战:能耗、可扩展性和可靠性,“如何采用更低能耗的计算器件和更低能耗的冷却制冷体系,我认为这是未来要攻克的第一个难题。系统计算节点数超过一定数目后,目前采用的互连结构就不再适用,因此系统结构需要做出较大调整以在成本、互联通信、带宽和延迟方面均获得良好表现。这就是可扩展性的体现。可靠性则指的是及时发现故障、管理故障和排除故障。系统的规模与其可靠性是成反比的,可靠性的保障是系统规模增大时一个很重要的问题。”因此,天河二号全体研发人员仔细梳理天河二号所遇到的技术瓶颈,并考虑规模扩展时可能发生的情况,通过模拟环境进行仿真,为下一代系统的设计提供指导和依据。
从天河二号即将成为广州未来的政务信息化、云计算应用的高性能平台来看,使用超级计算机来近距离服务社会和民生将是大势所趋。“我们将会在软件的移植和优化上给予帮助,以保障各种应用的有效实施。”卢凯强调,对于天河二号的利用是生态圈内各方明确职责、恪守职责的共同效应。