解读登顶TOP500的天河二号

来源 :中国计算机报 | 被引量 : 0次 | 上传用户:yongxi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  “天河二号是个多面手。”国防科技大学计算机学院教授、博士生导师、天河高性能计算机系统副总设计师卢凯这样形容刚刚登顶世界超级计算机500强排行榜的天河二号,它“不仅是为了满足传统的高性能科学计算需求来进行构建的,也兼顾了信息处理、数据分析等需求”。
  这个多面手该如何好好加以利用?“天河二号将作为广州超算中心的业务主机,今年年底安装到广州超算中心,主要用于科学计算、工程计算以及信息化服务等多个领域。”卢凯进一步介绍了天河二号下一步将如何大显身手。
  四大技术特点
  对于天河二号这样一个“性能巨兽”,卢凯介绍了它在技术上所具备的独特之处:定制化的体系结构设计、微异构的计算阵列、自主软硬件联合优化以及新型编程模型。
  “‘异构多态’的体系架构让天河二号不仅能满足以计算为核心的需求,也能满足以I/O为核心的需求,同时适应面向带宽和面向吞吐量的模式。”卢凯详细解读了这四个引以为傲的技术特点,“与英特尔合作搭建的微异构计算阵列,采用英特尔至强和至强融核,保证了第三方应用软件的兼容性、适用性和易用性。 ”
  而在自主开发方面,与天河一号一样,天河二号采用了在国家“核高基”重大专项支持下自主设计制造的微处理器,用于事务处理和信息服务。此外,在网络方面,天河二号在软硬件联合设计和优化上都达到了一个新的高度,充分考虑到系统的可扩展性;在存储方面,加大了对大数据的支持力度;在软件方面,尤其是系统管理方面,天河二号采用了诸如多层次容错设计、机器管理机器的自治故障管理技术等,使系统能够及时地发现、诊断和处理故障。
  OpenMC这一新型编程模型在天河二号中的采用,可以在尽量减少性能损失的情况下,方便用户应用的开发。“英特尔微异构处理器都采用x86的指令集,完全兼容,这使得编程开发环境变得非常简单有效。”英特尔公司软件与服务集团客户响应团队经理乔楠补充说道。
  “天河二号的成功,得益于天河一号的经验传承,我们可以顺利地进行系统调试和优化,拿下TOP500的第一名也是情理之中了。”卢凯表示,这一荣誉不是目的而是结果。
  不断演进的决心
  天河一号的计算节点数不到8000个,而天河二号的计算节点数为1.6万个,回顾这一突破进程中所遇到的困难,卢凯表示,对系统的认识水平位于哪一个层面很重要,找到瓶颈并消除是关键。
  “下一步,我们会向着3万个或者5万个计算节点扩展。”卢凯根据此前的经验教训,总结了可能会碰到的三个主要挑战:能耗、可扩展性和可靠性,“如何采用更低能耗的计算器件和更低能耗的冷却制冷体系,我认为这是未来要攻克的第一个难题。系统计算节点数超过一定数目后,目前采用的互连结构就不再适用,因此系统结构需要做出较大调整以在成本、互联通信、带宽和延迟方面均获得良好表现。这就是可扩展性的体现。可靠性则指的是及时发现故障、管理故障和排除故障。系统的规模与其可靠性是成反比的,可靠性的保障是系统规模增大时一个很重要的问题。”因此,天河二号全体研发人员仔细梳理天河二号所遇到的技术瓶颈,并考虑规模扩展时可能发生的情况,通过模拟环境进行仿真,为下一代系统的设计提供指导和依据。
  从天河二号即将成为广州未来的政务信息化、云计算应用的高性能平台来看,使用超级计算机来近距离服务社会和民生将是大势所趋。“我们将会在软件的移植和优化上给予帮助,以保障各种应用的有效实施。”卢凯强调,对于天河二号的利用是生态圈内各方明确职责、恪守职责的共同效应。
其他文献
今年最热门的安全硬件产品,非“下一代防火墙(NGFW)”莫属。从Gartner白皮书中的定义到成型的产品,不过短短四年,市场中已经出现了数十种被称作“下一代防火墙”的产品。但无论从产品形态还是产品功能来看,各种“下一代防火墙”相去甚远,难免让人出现雾里看花的困惑。  从令人眼花缭乱的NGFW产品中,企业用户又该如何分辨呢?如果仅参考Gartner对NGFW的定义,企业很可能会因为有限的认知而采购到
近日,住房和城乡建设部在“国家智慧城市试点创建工作会议”上公布了首批共90个国家智慧城市试点名单,其中包括地级市37个、区(县)50个、镇3个。位于长江南岸、重庆市主城区之一的南岸区成功跻身其中,它也成为重庆市两个获得试点资格区县中的一个。  据了解,南岸区在2012年区政府工作报告中就明确提出建设智慧南岸。南岸区作为重庆市信息化先进区,“十二五”期间将深化物联网等新一代信息技术在全区各领域、各区
随着物联网技术的不断发展,科技工艺开始向高精密、微尺寸、精确化方向发展,让人们时刻感知着物联网的智慧。学校、实验室、网络机房、数据中心、配线室、楼宇,物联网悄悄进入了普通人的家庭,影响着人们的生活,引领时代向科技智能化方向不断变化。  作为物联网行业的先驱企业,融智兴华一直本着“物以网聚,感知世界”的理念,依托自身的技术实力与创新精神,以用户需求为中心的原则发展。目前,融智兴华已推出了一系列远程智
基于闪存的新型存储选项正在驱动IT专业人员重新思考数据中心中存储介质的配置问题。有一些人甚至提出了这样的疑问:高速的硬盘驱动器在基础设施中还会存在多久?然而,更务实的想法可能是,在某些应用案例中,用户必须部署全闪存阵列,而非其他解决方案。  闪存系统优势明显  对于多数应用工作负载而言,混合阵列是最具成本效益的采用闪存技术的交付手段,它融合了闪存存储与传统磁盘系统。在混合环境中,额外的1%~2%的
一边是SAP、Oracle、Infor等跨国管理软件厂商高歌猛进,对我国市场野心勃勃、志在必得;一边是我国管理软件厂商的业绩增长缓慢,甚至出现下滑的情况,当前我国管理软件市场可以用“冰火两重天”来描述。很难用单纯的一个因素来解释这种现象的出现,但是在转型的关键时候恰逢国际经济形势不明朗,是导致我国管理软件厂商状态不佳最主要的原因之一。在这种情况下,转型的步伐不宜太快。  向云计算、平台化转型  “
云计算的设想是让数据中心变成一个可按需扩容或精简的超级PC。但要实现这个设想,计算、存储、硬件网络三者必须变得不再相互割裂。  借助日新月异的信息技术,虚拟的计算、存储资源已经可以和云平台紧密结合,但硬件网络与云平台,以及计算、存储资源的紧密结合却不那么容易实现。即使是当下流行的SDN理念,也不能完全让网络像PC总线那样服务于云。华为认为,在云计算数据中心,网络迟早要完成云网一体化的演进,弹性架构
■ 本报记者 邱燕娜      微软显然希望借助刚刚发布的平板电脑Surface Pro 3强化商用市场。新产品刚发布不久,微软就在6月5日举办了Surface Pro 3商用媒体沟通会。  取代笔记本电脑  Surface Pro 3是微软推出的基于Win8平台的第三代平板电脑。微软总部Surface 产品部门总经理Brian Hall在介绍产品时,特别强调了Surface Pro 3是“首款能
3D打印技术,因其新颖的增材制造的理念在上世纪80年代一经推出,即受到热捧。近5至8年,随着其核心部件如激光、高精度电机、加热喷头等相关技术的发展,加之诸如打印汽车、枪支、食品、器官等事件的报道,3D打印被提升到相当高的位置,其产值和应用范围被严重高估。  3D打印还未形成广泛的工业应用,不存在实际的完整产业链条,不能大面积应用的最主要原因是各类适用材料不能满足设计要求。在常用3D打印材料种类基本
“中标184个项目,大部分已部署完成,目前还有150个项目处于运作当中。”在HNC2014(华为网络大会2014)上,华为企业网络产品线总裁刘少伟给出了这样一组数据。很难相信,这竟然是去年8月华为发布的“敏捷”交换机的销售业绩。  在产业界还在探讨SDN的时候,华为基于SDN理念设计的“敏捷”交换机却已经敲开了近200个客户的大门。为何华为可以突破市场的正常规律,仅用了7个月的时间,就让这么多用户
在刚刚结束的ISC’14国际超级计算大会上,曙光信息产业股份有限公司展示了其创新的八路高端服务器、最新设计的图形工作站,并在大会现场进行了直接浸没式液冷服务器的全球预发布。作为中国高性能计算的领先企业,曙光公司在德国莱比锡获得了满堂彩。  在节能减排变得日益重要的今天,作为数据中心的核心设备之一,服务器的制冷效果将直接影响到整个数据中心的运行和企业业务的持续运行。众所周知,传统服务器是采用空气冷却