高性能计算的另类思维

来源 :中国计算机报 | 被引量 : 0次 | 上传用户：wsmkt

【摘要】

：

【作者】

：

马文方

【出处】

：

中国计算机报

【发表日期】

：

2009年4期

【关键词】

：

高性能架构性能记者程序员语言

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　CPU数量的增加不仅带来了性能的提升,还带来了可用性降低、功耗和成本攀升。未来,高性能计算路在何方?Andy Keane眼中CPU与GPU的结合才是最好的计算架构。
　　
　　随着IBM高性能计算机“走鹃”于2008年6月诞生,高性能計算机(HPC)迈入千万亿次门槛。用户对高性能计算需求的持续增长,推动着HPC规模越做越大。在由CPU构成的高性能计算的世界中,由于CPU计算性能的提升速度远远落后于高性能计算需求增长的速度,增加CPU的个数便成为提高HPC性能的主要途径。如今全球高性能计算500强(Top500)中已经出现内核累计总数多达20多万个的HPC。
　　但是,在提升性能的同时,CPU个数的增加也给HPC增添了复杂性,并带来可用性降低、系统功耗惊人、成本高居不下等问题,让HPC厂商日益感到头痛。于是,高性能计算厂商开始探索新的提升HPC性能的途径。IBM的“走鹃”就是采用CPU和Cell处理器的混合架构,AMD和Intel也都分别对外发布了各自的CPU GPU(图形处理器)的混合架构。
　　作为GPU领域龙头老大的NVIDIA自然不会放弃在高性能计算这一CPU的传统领地炫耀性能的机会。它先是推出了CUDA架构,使得程序员可以用C语言对CPU和基于CUDA架构的GPU进行统一编程,从而解决了因编程复杂而被程序员敬而远之所造成的GPU应用难以普及的问题。进而,它又推出了面向高性能计算的Tesla系列GPU。2008年11月21日,NVIDIA在美国德克萨斯州奥斯汀市举办的2008超级计算大会上联手HPC的巨头Crayon推出个人HPC。与此同时,会上公布的Top500中,采用Tesla技术的HPC首战便占据了第29名的位置,标志着NVIDIA从个人HPC和高端HPC全面切入高性能计算领域。
　　为此,本报记者独家专访了NVIDIA高性能计算事业部总经理Andy Keane。
　　
　　HPC中的GPU
　　
　　记者:GPU在高性能计算中的性能已经到达了何种地步?
　　Keane:CPU的运算速度在很大程度上还取决于缓存的大小,而GPU则是在任务并行化后用大量的线程来进行运算。虽然CPU已经多核心化,可以多达8个内核,但在并行计算时,显然不是GPU上千个线程的对手。
　　比利时有所大学,以前用的是512个CPU组建的HPC,当他们了解到GPU的运行功能很强后,试着自己搭建了一台配置有8个GPU的台式机,结果性能竟与以前512个CPU的HPC不相上下。
　　记者:既然GPU的性能远远超过CPU,那么NVIDIA何时开始关注GPU的计算能力?
　　Keane:15年前,我们就开始针对3D游戏开发GPU了。但GPU的编程很复杂,因而应用主要是集中在图形显示领域。之后,我们开发了CUDA架构,你可以把CUDA想象成与x86相似的硬件架构,它允许应用开发者用他们熟悉的语言对GPU进行快速编程,从而为GPU拓宽了应用范围。现在,NVIDIA所有的GPU都支持CUDA架构。
　　记者:懂得计算机的人都知道,并行编程要比串行编程复杂得多。程序员如何在CUDA平台上对CPU和GPU统一编程?
　　Keane:尽管CPU与GPU之间在架构上存有很大的区别,但我们觉得CPU与GPU的结合才是最好的计算架构。于是我们在CUDA上推出了C语言编译器,程序员在开发应用程序时,只要对序列执行的程序代码和并行执行的程序代码简单地进行标注,C编译器就可以向PC解释哪部分该由CPU做,哪部分该由GPU做。
　　记者:CUDA的编程看来不难,那么搭建一个个人HPC难不难?
　　Keane:用Tesla组建个人HPC是件很容易的事。你只要把买到的Tesla卡插到PC主板上的PCI插槽,你的PC就变成了1台个人HPC。
　　记者:Tesla贵吗?
　　Keane:4个GPU的价格在9500美元～1万美元之间,3个GPU的Tesla价格为7000多美元。但与同等价位的工作站相比,我们的性能应该有百倍的提升。
　　
　　竞争对手
　　
　　记者:我们看到现在全球性能最高的HPC“走鹃”所采用的CELL处理器实际上就是一个集成了8个流处理器和一个CPU内核的处理器,而GPU也是由数百个流处理器构成的。你是如何看待CELL的?
　　Keane:CELL的编程要比CUDA复杂得多。CUDA本身就是一个GPU架构,我们所有GeForce、Quadro和Tesla产品线都可以很完美地对其提供支持。它的编程模式是很简单的,语言与C语言非常接近,编译器与C语言也基本一致。唯一的改变是将之前的串行计算更新为并行计算。在过去的一年中,CUDA积累了大量的应用程序,而且在美国,也有很多活跃的论坛讨论CUDA的编程问题。我们也在CUDA中文网站上开设了CUDA中国专区,上面有144个使用的案例。对于程序员而言,这些编码都是开放的。
　　记者:在基于Tesla搭建的HPC中,GPU与CPU从指令集上看是异构的。而英特尔最新展示的具有80个内核的Larrabee却采用的是x86指令集,从而实现了CPU和GPU在指令集上的兼容,对于程序员来说,这是否会比Tesla编程更为容易呢?
　　Keane:我并不这样认为。在NVIDIA的CUDA平台上,不管面对何种架构,编程人员都可以用很普及的C语言去对CPU和GPU进行统一编程。对于程序员来说,Tesla的编程是很简单的。而Larrabee无法用C语言来编程,程序员要学习这种新架构和它的语言并用两种语言分别对CPU和GPU进行编程。
　　记者:AMD选择GPGPU(通用GPU)来切入高性能计算领域,对此你有何见解?
　　Keane:关键要看它的普及率了。这里有两个数据:英特尔x86处理器市场占有85%的份额,AMD只占15%;同时,AMD的FireStream只有5%的使用率。你为客户定制产品的确会又好又快,但如果产量不高,成本无法有效摊薄,价格就会非常高。而我们主要针对主流市场,用更加标准的界面来制作,让用户很容易使用,而且有能力承受。我们能够让很多研究人员将原本要跑到数据中心去做的计算转移到插有Tesla卡的工作站上,并很容易地获得高性能计算的体验。
　　
　　应用领域
　　
　　记者:TOP 500中,x86架构CPU已经占据了90%的地盘。请问Tesla进入高性能计算市场的机会有多大?
　　Keane:几乎是100%。我们强调的是异构计算,GPU不可能完全取代CPU,只是能显著地减少CPU的数量。如果我们从另外一个角度上看这个问题,其实全都采用一样的架构未必是件好事。如同在GPU领域,因为有我们GPU、Intel的Larrabee和AMD的ATI的存在,因此大家可以互相激励,充分开展竞争,刺激创新。但是服务器领域的架构几乎统一,这对创新是不利的。
　　记者:那么在工作站方面呢?
　　Keane:工作站的限制主要在于工作站机箱内部空间的限制,例如工作站的电源只能提供1000W的功率,那么,我们可以在这1000W之内给你提供尽可能高的计算性能,比如说1T的性能。
　　记者:无疑,Tesla个人高性能计算机的性能远好于现在的工作站,但目前工作站上的很多应用软件都是基于UNIX系统,厂商们愿意把它们移植到Tesla平台上吗?
　　Keane:这些开发商面临着决定应用何种并行运算解决方案的选择。其中之一为多核CPU解决方案,即将计算工作分配到双核、四核甚至八核上。这样,对于开发人员来说,如果他们要想通过并行计算来得到性能的提升,就必须将应用分解为4块甚至8块。这其中最大的挑战是如何将计算工作划分为完全均衡的4块或者8块。另外一种解决方案类似Intel的Larrabee,开放人员可以用比多核解决方案更为简单的方式解决并行计算的问题。但是针对并行运算,GPU架构可以非常简单地实现非常大规模的并行计算。如果你要按照时间和效率来衡量这几种选择方案,GPU无疑是效率最高的。
　　记者:未来工作站会不会被Tesla个人超级计算机替代?
　　Keane:对于任何使用集群的用户,都有应用Tesla GPU的需要。我将努力说服他们中的所有人。利用工作站进行高性能计算的用户也是我们的目标人群,我们也希望让他们认识到我们的好處。事实上,如果用户很看重预算和效率,对成本和时间很敏感,那么Tesla对他们来说就很有价值。
　　
　　未来发展
　　
　　记者:在CPU领域,虚拟化是一个很时尚的话题,Tesla也能虚拟化吗?
　　Keane:如果CPU可以做到虚拟化,那么GPU也可以做到虚拟化。因为他们都是基于处理器架构的。就好像将GPU作为CPU的一个资源,只要CPU可以实现虚拟化,那么GPU也可以作为CPU的资源实现虚拟化。
　　记者:Tesla现在使用C语言编程。我们知道C语言与硬件很容易结合,也易于控制。听说NV还要在Tesla上使用Fortran,这样会不会影响到效率?未来还会有其他语言吗?
　　Keane:Fortran是非常结构化的语言,并行计算的性能非常好,在GPU上的执行效率甚至更高。同时,在未来我们还将增加C 等语言。
　　记者:既然在Tesla计算机中,Tesla GPU要与CPU协同工作,那么,未来GPU和CPU会不会集成在一个芯片上?
　　Keane:我们不认为GPU和CPU将会融合。因为目前GPU的设计比CPU还要复杂,GPU拥有更多的核心,更高的内存容量,芯片的面积也很大。我们的客户也对计算性能和内存提出更高的要求。我们所能做的是提升制造工艺,从而降低芯片的面积。
　　我们当然可以把一个小型CPU集成进来,但这样对GPU计算性能的提升并没有益处。就高性能计算而言,高速异构计算架构是一个CPU搭配多个GPU,然后更多的CPU搭配更多的GPU,这样,GPU就可以发挥加速器的作用。
　　记者:既然高性能计算市场这么大, NVIDIA会不会借助Tesla成为HPC厂商?
　　Keane:不会的。我们的优势就在GPU上,我们也生产主板,但是我们的研发都是投在GPU上。这一点,我们的CEO说得很清楚,NVIDIA会一直专注在GPU上,不会在其他地方分神。

其他文献

星网锐捷:彻底打破视频监控网络“线”制

如同苹果因iPod触发全球视听的革命，星网锐捷正触发一场无线监控领域的革命。面对客户需求的不断变化与升级，星网锐捷集成在网络设备、3G通信、多媒体视频应用、无线监控等多领域的领先优势，打造业界唯一可脱离网络实现无线监控的DVRG系列无线监控产品，开创了前所未有的无线监控体验。　　　　无线监控的华丽转身　　　　自3G网络正式投入商用以来，无线监控就成为安防行业的新奶酪，各大安防厂商都陆续尝试打造基于

期刊

星网锐捷系列产品彩信产品视频监控

上网本继续前进需要不断的创新

从5月开始,中国计算机报IT实验室连续对六款3G上网本进行了评测。其中既有采用最常见的英特尔凌动N270处理器及其配套平台的通用方案产品,也有采用英特尔凌动Z系列处理器的超便携产品;既有联想等传统笔记本电脑大佬,也有刚刚涉足笔记本电脑制造的纽曼、爱国者等新面孔;既有精细设计的中高端产品,也有物美价廉的实用机型。不过,由于上网本产业链的成熟和完整、代工模式和设计外包的普遍性,目前市场上各类上网本不下

期刊

三星英特尔也有产品两款富士通

电子政务信息共享遭遇“数据之痛”

“这其中是有问题的。”说话的是一位来自公安部门的代表在会上说。　　11月9日~10日,由工业和信息化部主办、厦门市信息产业局承办的全国地方电子政务信息共享和业务协同经验交流会(以下简称“经验交流会”)在厦门召开。会上,来自浙江、江苏、上海、厦门等省市的代表分享了各地区信息共享项目的建设情况。这位公安部的代表正是在听到了江苏省无锡市的人口库案例介绍后,提出了如上质疑。而他的质疑恰恰映射出目前电子政务

期刊

代表标准数据信息青岛市部门

东软集团股份有限公司等

东软集团股份有限公司　　　　——企业介绍——　　东软集团股份有限公司（简称东软）于1991年在中国东北大学成立。目前公司拥有员工17000余名，在中国建立了6个软件研发基地、8个区域总部，在40多个城市建立营销与服务网络，在大连、南海、成都和沈阳分别建立3所东软信息学院和1所生物医学与信息工程学院，并在美国、日本、欧洲、中东设有子公司。东软将“超越技术”作为公司的经营思想和品牌承诺，致力于成为受社

期刊

京东方东软航天全球产品亿元

自动精简配置:提升存储利用率有绝招

面对国际金融危机,企业在存储扩容时不得不精打细算。为了降低整体拥有成本,企业除了要减少初次采购成本,还要尽可能减少今后的运维成本。重复数据删除技术作为时下最热门的存储优化技术,能显著降低存储设备的介质消耗,并减少数据中心对空间和能源的消耗,还可与本文谈到的自动精简技术无缝配合,极大地降低存储系统的成本,提高企业存储系统的利用率。　　　　可用空间增加10倍　　　　自动精简配置技术扩展了存储管理功能,

期刊

数据空间技术存储空间分配存储系统

年增１９％　中国呼叫中心增长居亚太之首

本报讯亚太地区呼叫中心（Call Center）行业研究和出版机构callcentres．net 3月11日在京发布《2008年度亞洲联络中心产业基准报告》。报告显示，中国呼叫中心行业增长强劲，并以19%的增长率位居亚太地区之首。　　报告指出，2009年中国呼叫中心行业席位数将至少在现有基础上增长20%。报告显示，2007年～2008年，中国呼叫中心的席位规模增长强劲，达285600个席位，增长

期刊

呼叫中心席位中国行业亚洲亚太地区

不妥协的“小黑”T系列十岁了

以超越的姿态和行动来告白，似乎是给予经典的最好纪念。2010年，ThinkPad的旗舰产品T系列迎来了十周岁生日。时值岁末，联想为这个特别的年份献上了一份大礼——推出该系列的最高端产品ThinkPad T410s，这是一款超轻薄的高性能商务笔记本电脑。　　“小黑”的粉丝没有苹果迷们的过度狂热，却有着多年不变的冷静执着。从首款T系列产品T20开始，经典ThinkPad T系列产品一直是商务人士的称职

期刊

性能技术这是晓辉客户产品

云计算让瘦客户机焕发青春

在2010 VMworld大会上,网思科技(Wyse Technology)的展台十分醒目。在虚拟化技术盛行的时代,网思科技的瘦客户机再次焕发青春。VMworld大会结束之后,网思科技首席市场与策略官Jeff McNaught到访北京,向中国记者介绍了网思科技的云客户端计算战略。　　　　为了5倍的增长　　　　Jeff McNaught表示:“目前,每天约有两亿人在使用网思科技的产品。据分析师预测,

期刊

思科环境桌面客户端软件设备

团购信用认证:披着权力外衣的交易?

10月29日,中国国际电子商务中心(以下简称中心)举办了《电子商务信用认证规则》发布会,主办方同时公布了首批通过认证的29家团购网站名单。消息一经发布,就引起了媒体和部分团购行业从业者的质疑。这到底是一次政府主导的行业规范行为,还是主办方借着行政权的公信力来谋取自己的利益?　　　　模糊的身份　　　　在发布了所谓中国首个团购行业信用认证规则之后,中心并没有因探索如何规范团购行业发展而赢得认可,反而听

期刊

团购商务部信用规则中心费用

存储虚拟化技术成容灾方案首选

数据中心的容灾保护涉及众多的应用、主机、系统、数据库,以及非结构化的数据,甚至各种存储设备,因此存储虚拟化技术成为构建一个灵活的可持续发展的容灾方案的首选。　　　　需高效集中化的管理　　　　现代信息中心的发展速度迅猛,并且逐渐形成了网络化、集中化和虚拟化的系统架构,以满足业务的长远发展需求。一个现代化的信息中心应该具备以下的特征:　　· 可以动态地为业务系统提供所需的计算资源和存储资源;　　· 可

期刊

系统数据资源信息中心业务快照

高性能计算的另类思维

与本文相关的学术论文