论文部分内容阅读
2013年6月17日,中国国防科学技术大学研制的“天河二号”(MilkyWay-2)以每秒33.86千万亿次的实测性能,登上了第41届高性能计算TOP500排行榜的榜首。与两年半前登上“世界第一”宝座的“天河一号A”相比,“天河二号”的系统规模、复杂程度都是前者不可比拟的。
日前,国防科技大学计算机学院教授、天河高性能计算机系统副总设计师卢凯在接受本报采访时表示,“天河二号”超级计算机并非单一地面向传统的高性能的科学计算来进行设计的。
“‘天河二号’可以说是一个多面手,兼顾了科学计算、信息处理、数据分析等多种应用需求。”卢凯说,“所以‘天河二号’从体系结构设计、技术方案设计方面都做了很多定制化的设计。比如说在体系结构方面,改变了原来传统的、单一面向于高性能计算的架构,而是采用了‘异构多态’的架构。”
卢凯所说的这种“异构多态”架构的核心,就是在计算节点上采用了英特尔最新的微异构(Neo-Heterogeneous Architecture)技术,即在每一个计算节点上采用了至强处理器加至强融核协处理器的架构。“‘微异构’的这种体系架构,能够在强化科学工程计算的同时,高效支持大数据处理、高吞吐率和高安全信息服务等多类应用需求。不论是面向高带宽的计算模式,还是面向信息处理,以I/O为核心,以中小尺寸数据吞吐为主的计算模式,‘天河二号’都可以胜任。”
卢凯还表示,“天河二号”与“天河一号”一样,在国家专项基金的支持下,在自主创新方面进行了大量的工作,例如采用了新一代的“飞腾”处理器。
“此外,在互连网络方面,针对‘天河二号’的规模和计算需求,国防科技大学进行了大量软硬件两方面的优化,以满足未来更大规模的网络系统构建需求;在存储方面,对于大数据的支持以及传统科学计算都有很好的兼顾和适配;在软件方面,特别是在系统管理方面,‘天河二号’相对之前的产品进行了大量的改进,采用了多层次的容错设计,采用了机器管理机器的、自治的故障管理技术等等,使整个系统能够及时发现故障,及时诊断故障和及时处理故障,从而保证性能上能有长足的提升。”卢凯说。
据悉,“天河二号”将会安装交付给位于中山大学东校区的国家超算广州中心,除了主打传统的科学计算领域,同时还会兼顾大数据处理、云计算等应用领域。目前“天河二号”已应用于生物医药、新材料、工程设计与仿真分析、气象预报、气候模拟与海洋环境研究、数字媒体和动漫设计等多个领域,开始为多家用户单位提供超级计算服务。不过,卢凯坦言,目前中国在高性能计算应用在软件优化方面的能力确实落后于硬件系统的发展。要想充分发挥“天河二号”性能,还需在人才培养、应用软件开发等方面加大投入力度,甚至需要从国家层面,有意识地往这些方面倾斜。
“天河一号”大约有5000个计算节点,“天河二号”则达到了近1.6万个节点。未来,要达到百亿亿次计算的目标,超计算机的规模还会不断扩大。卢凯认为,未来的超级计算机将会面临“能耗、扩展性和可靠性”三大问题。
“以目前‘天河二号’来看,整个系统加上制冷的能耗大约达到了20多兆瓦,一般的用户还可以接受。但未来如果达到5万个节点以后,能耗的问题会进一步加剧。到时候采用什么样的更低能耗的计算器件,以及更低能耗的冷却制冷体系,都是需要攻克的难点;‘天河二号’搭载了1.6万个节点,采用的是“胖树”型的网络架构。目前来说,这种架构在建设成本、互联通信带宽和延迟方面都是一种比较好的解决方案。但是如果未来达到更大规模的系统,例如5万个节点这样的规模,这种架构就不一定能适合了,需要探索新型的架构;还有就是系统可靠性的问题,这也是困扰全球高性能计算机的一个问题。高性能计算机系统的规模和它的可靠性是成反比的,系统规模越大可靠性越低,平均无故障时间越短。在这个情况下,如何及时发现故障、管理故障、排除故障,或者计算模型是否能够容忍故障等问题都变得很尖锐起来。”卢凯说。
日前,国防科技大学计算机学院教授、天河高性能计算机系统副总设计师卢凯在接受本报采访时表示,“天河二号”超级计算机并非单一地面向传统的高性能的科学计算来进行设计的。
“‘天河二号’可以说是一个多面手,兼顾了科学计算、信息处理、数据分析等多种应用需求。”卢凯说,“所以‘天河二号’从体系结构设计、技术方案设计方面都做了很多定制化的设计。比如说在体系结构方面,改变了原来传统的、单一面向于高性能计算的架构,而是采用了‘异构多态’的架构。”
卢凯所说的这种“异构多态”架构的核心,就是在计算节点上采用了英特尔最新的微异构(Neo-Heterogeneous Architecture)技术,即在每一个计算节点上采用了至强处理器加至强融核协处理器的架构。“‘微异构’的这种体系架构,能够在强化科学工程计算的同时,高效支持大数据处理、高吞吐率和高安全信息服务等多类应用需求。不论是面向高带宽的计算模式,还是面向信息处理,以I/O为核心,以中小尺寸数据吞吐为主的计算模式,‘天河二号’都可以胜任。”
卢凯还表示,“天河二号”与“天河一号”一样,在国家专项基金的支持下,在自主创新方面进行了大量的工作,例如采用了新一代的“飞腾”处理器。
“此外,在互连网络方面,针对‘天河二号’的规模和计算需求,国防科技大学进行了大量软硬件两方面的优化,以满足未来更大规模的网络系统构建需求;在存储方面,对于大数据的支持以及传统科学计算都有很好的兼顾和适配;在软件方面,特别是在系统管理方面,‘天河二号’相对之前的产品进行了大量的改进,采用了多层次的容错设计,采用了机器管理机器的、自治的故障管理技术等等,使整个系统能够及时发现故障,及时诊断故障和及时处理故障,从而保证性能上能有长足的提升。”卢凯说。
据悉,“天河二号”将会安装交付给位于中山大学东校区的国家超算广州中心,除了主打传统的科学计算领域,同时还会兼顾大数据处理、云计算等应用领域。目前“天河二号”已应用于生物医药、新材料、工程设计与仿真分析、气象预报、气候模拟与海洋环境研究、数字媒体和动漫设计等多个领域,开始为多家用户单位提供超级计算服务。不过,卢凯坦言,目前中国在高性能计算应用在软件优化方面的能力确实落后于硬件系统的发展。要想充分发挥“天河二号”性能,还需在人才培养、应用软件开发等方面加大投入力度,甚至需要从国家层面,有意识地往这些方面倾斜。
“天河一号”大约有5000个计算节点,“天河二号”则达到了近1.6万个节点。未来,要达到百亿亿次计算的目标,超计算机的规模还会不断扩大。卢凯认为,未来的超级计算机将会面临“能耗、扩展性和可靠性”三大问题。
“以目前‘天河二号’来看,整个系统加上制冷的能耗大约达到了20多兆瓦,一般的用户还可以接受。但未来如果达到5万个节点以后,能耗的问题会进一步加剧。到时候采用什么样的更低能耗的计算器件,以及更低能耗的冷却制冷体系,都是需要攻克的难点;‘天河二号’搭载了1.6万个节点,采用的是“胖树”型的网络架构。目前来说,这种架构在建设成本、互联通信带宽和延迟方面都是一种比较好的解决方案。但是如果未来达到更大规模的系统,例如5万个节点这样的规模,这种架构就不一定能适合了,需要探索新型的架构;还有就是系统可靠性的问题,这也是困扰全球高性能计算机的一个问题。高性能计算机系统的规模和它的可靠性是成反比的,系统规模越大可靠性越低,平均无故障时间越短。在这个情况下,如何及时发现故障、管理故障、排除故障,或者计算模型是否能够容忍故障等问题都变得很尖锐起来。”卢凯说。