通用GPU又添新兵

来源 :微型计算机 | 被引量 : 0次 | 上传用户:wys8800
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  谈起GPU,大家首先想到的一定是3D游戏。最大限度地展现出3D游戏的各种特效—直是驱使图形芯片厂商不断创新的动力,也是DIYer不断升级显卡的目的所在。这种发展模式有利也有弊——利在于图形芯片技术得到了不断的发展,从浮点运算能力来看GPU已远远超过了CPU;弊在于GPU强大的计算能力仅仅应用于3D游戏领域,专注于图形渲染,很少从繁忙的CPU那里分担一些其它的任务。因此,业界开始尝试在现有GPU的基础上进行软硬件改造,将其强大的浮点运算能力应用于更广泛的领域,让它变得像CPU那样更加通用化,在一定程度上取代CPU的部分功能。NVIDIA基于GeForce 8而开发的Tesla系列平台就是这一领域的最新成果。
  
  GPU走进崭新应用时代
  
  在此之前,GPU“专注于”3D游戏,而CPU即使再繁忙也无法让GPU来分担任务的根本原因是GPU架构的限制。众所周知,GPU核心逻辑单元包含顶点渲染单元和像素渲染单元。起初,顶点渲染单元和像素渲染单元只能执行固定的图形指令,如果一条其它类型的指令传递给GPU,那么GPU就会立马摸不着头脑了。因此,当时想让GPU分担CPU的任务是根本无法实现的。随着图形技术的发展,GPU开始具备可编程能力,如此一来,使得程序员拥有了较大的灵活性,而且随着图形API(ApplicationProgramming Interface,应用程序接口)的不断完善,GPU所具备的可编程能力也越来越强。当API发展到DirectX 9.0时代,顶点渲染指令和像素渲染指令长度已经达到了512条,通过特定的指令转换规则,GPU便有能力处理除3D游戏以外的任务,例如在播放高清视频时所用到的PureVideo和Avivo技术就是GPU的一种通用计算。而在最新的DirectX 10 API当中,打破了传统的顶点渲染单元与像素渲染单元分离的架构,使得整个GPU的效率更高,而且更强大的可编程能力也让新一代图形芯片具备了较为完整的通用计算能力。
  如果GPU只是具备了除3D游戏以外的计算能力,还不足以表明GPU将得到更大的发展空间,是否有真正的应用需求才是更为重要的因素。在科学计算领域,要求计算机具备强大的并行浮点运算能力,这样才能完成庞大的数据计算工作。而CPU架构的特长在于管理多个离散的任务,但是有些任务能够被细分为多个更小的单位并且可以被并行化,CPU在处理这些任务的时候并没有突出的性能优势。因此,厂商为了提高基于CPU体系的超级计算机性能,不断增加CPU数量便成为了一条折衷的法则。IBM已研发出新型蓝色基因(Blue Gene)超级计算机系统Blue Gene/P,这套系统的处理能力超过了1PFLOPS(1000万亿次浮点运算能力),而代价便是集成了294912颗核心(73728个四核CPU)。再来看看GPU,由于GPU在架构设计上一开始就是为计算密集型处理而设计,高强度并行计算本身就是3D游戏要求之一。在GPU当中,增加更多晶体管的作用在于处理数据(Data Processing)而不是存储数据(Data Caching)与流控制(Flow Comrol)。因此,利用GPU来构建超级计算机无疑是一种非常高效的途径。
  
  NVIDIA Tesla平台登场
  
  面对通用计算的庞大市场需求,NVIDIA终于在近期发布了Tesla平台。它是一套基于GPU的HPC系统(High Performance Computing,高性能计算),包括了硬件与软件两部分——基于GeForce 8系列的GPU,以及CUDA开发工具包和C编译器。
  根据市场需求的不同,NVIDIA将整个Tesla产品线分为三条:“Tesla C870计算处理器”、“Tesla D870桌面型超级计算机”和“Tesla S870计算服务器”,用户可根据自身需求选择合适的系统。
  Tesla C870计算处理器其实就是一块GeForce 8800显卡,两者在本质上并无区别,规格上也非常接近。它使用的是Ouado显卡的PCB基板,核心频率为575MHz(与GeForce 8800GTX相同),同样有128个统一渲染单元,运行频率1.35GHz,搭配显存容量为1.5GB。Tesla C870能够提供518GFLOPS计算能力,目前只支持32位单精度浮点运算,双精度的升级版将在今年年底前推出。与GeForce 8800显卡不同的是,由于不需要显示输出,Tesla C870取消了传统显卡上的显示接口(无法当作显卡来使用),但保留了与Quadro和GeForce显卡一样完整的OpenGL和DirectX功能。
  Tesla D870桌面型超级计算机面向于高端市场客户。Tesla D870本身并不是一套完全的计算系统,它通过一条PCI-E外接数据线附加在主系统上(主系统需要安装一块PCI-E x16/x8扩展卡),主系统上计算任务通过特定程序和驱动调用Tesla D870进行运算,再将结果返回到主系统中,完成通用计算任务的加速处理。Tesla D870系统当中具备两块GPU(即Tesla C870 SLI),当然,也可以选择两套桌面系统通过架式组建一套3U系统。Tesla D870能够提供1,036TFLOPS计算能力。在静音方面,Tesla D870也相当出众——40dB,完全能够在办公场所使用。今后NVIDIA还会将TeslaD870升级到四块GPU或者通过组建3U系统提供八块GPU的运算能力。
  TeslaS870计算服务器则面向于最高端的应用领域,每个1U设备可以提供4~8块GPU,在获得最高性能的同时降低功耗,四块GPU的系统功耗为550W,计算能力达到了2.072TFLOPS。NVIDIA Tesla服务器产品的产品配置也将十分灵活,可以满足既追求高性能又需要低功耗的应用场合。Tesla S870的工作方式与D870相似,同样通过PCI-E外接数据线附加在主系统上,作为通用计算的“加速器”,不过Tesla S870支持用两条PCI-E外接数据线连接主系统,以减小单条数据线产生的数据传输瓶颈。
  
  CUD是实现通用计算的关键
  
  在介绍完Tesla硬件平台以后,我们简要提及一下至关重要的软件开发平台。NVIDIA开发人员提供了一项名为CUDA(Compute Unified Device Architecture)的新软件架构技术。当运行CUDA程序时,GPU作为CPU的协处理器运作。GPU在CPU组织、翻译和交流信息的同时,依靠大量的并行数据信息处理核心进程。应用程序中需要被执行多次的高强度运算部分,每次由主程序提取出来并编译到GPU中并行执行,不过它们基于的是不同的数据。   CUDA包含三个主要部件:可以高效率执行并行数据的GPU、用于访问GPU上并行运算资源的C编译器,以及负责运算的实时驱动。
  CUDA的核心在于为GPU设计的C编译器,它的首要特性是能够简化并行程序编码的编程环境。而经典的C语言对于大多数开发者来说是最熟悉不过的了这样一来,就可以使开发者将更多的精力放在设计高效的并行程序,而不是去处理繁琐的API函数。为了简化开发环境,CUDA的C编译器允许编程人员将CPU和GPU的代码编写在同一个程序文件当中。当然,简单的附加说明还是有必要的,告知CUDA编译器哪个函数应该放到CPU中执行,哪个函数应该编译到GPU中执行一需要GPU处理的部分将被CUDA编译器编译,而需要CPU处理的代码将被标准C编译器所编译。开发者使用T--种创新的编程模式来向GPU映射并行数据,CUDA程序将需要处理的数据分割成更小的块,然后并行的进行处理。这种程序模式允许程序员无论对于多块GPU还是一块GPU都只需一次编程即可。
  当运行通用计算任务时,CUDA驱动会自动识别出能够用GPU进行加速的计算任务,然后将这些任务从CPU那里“抢”过来,加载到GPU中执行。主程序会通过高速PCI Express总线与GPU进行通信。数据的传输、GPU运算功能的启动以及其它一些CPU和GPU交互都可以通过调用专门驱动来完成。这种高级的操作过程将把开发人员从手动管理GPU运算资源中解放出来。
  翻译和操作大量信息数据的能力是计算科学的首要条件,加之广泛普及的CDUA SDK开发工具,使得任何应用程序都能有效利用GPU强大的运算能力。由于CUDA软件与Tesla平台的结合,开发者有能力将在超级计算机上做的事让桌面电脑来做,并且能够显著地增加服务器集群的数据处理能力。
  
  NVIDIA Tesla平台实际应用
  
  可以说NVIDIA Tesla平台的应用相当广泛——地震模拟、计算生物学、商业风险评估、医学成像、信号处理、物理仿真和气象预报,甚至核模拟,只要是需要大规模数据计算的应用场所都有Tesla的用武之地。NVIDIA表示,使用Tesla平台加速这类计算的效果非常理想,例如在地震数据库的计算上,Tesla平台的运算效率是CPU的66~100倍,在大气云层仿真的计算上则是50倍;而分子动力学的加速更可以达到240倍!
  这样一来,诸如分子仿真实验等科学研究工作将不再被局限于在服务器集群上运行(以前只有服务器集群才有足够的性能来进行科学计算),私人实验室和桌面计算机上工作站在Tesla平台的帮助之下同样也能进行仿真实验,研究人员将不会再因为争夺稀少的超级计算机而冲突,也不用为这些计算任务煞费苦心地安排时间计划表了。
  
  通用GPU前景看好
  
  我们知道,其实NVIDIA推出的Tesla平台并不是首款通用计算平台,AMD早在半年前就拿出了“流处理器”,这款基于Radeon X1900的“流处理器”可以实现375GFLOPS计算能力。不过相比之下,NVIDIA在通用计算产品上的规划更加完整。毫无疑问,通用GPU的竞争已经开始。当然我们也可以看到,目前NVIDIA和AMD的通用GPU产品只是针对特定计算任务的“加速器”,还无法真正取代CPU,而只是相当于CPU的“协处理器”。
  超级计算机对于一个国家的科学进步、技术提高以及国家安全都有着至关重要地位。因此众多国家和厂商在全球范围内掀起了一次又一次超级计算机竞赛,希望通过展示自身的实力以便从利润丰厚的高端市场得到利益。那么,未来超级计算机市场是传统的CPU继续领先还是GPU异军突起呢?在这里我们不妨做一个简单的计算来大胆预测一下通用GPU的前景。我们以IBM下一代蓝色基因Blue Gene/P所备的3 PFLOPS计算能力为标准,总需294912×3=884736颗核心;如果采用Tesla S870的话,仅仅需要1500U(即6000颗GPU),通用GPU的优势可见一斑!在此情况下,作为老牌处理器厂商的英特尔也意识到问题的重要性,并积极投入高端图形技术的研发当中。今后GPU和CPU的竞争将会如何发展,让我们拭目以待。
其他文献
程浩和妈妈李哲一起走过了20年的时光,这朵玫瑰花是他生前所绘。  8月17日上午将近11点的时候,程浩在自己的知乎专栏上发表了第二篇文章《地狱在身后》,随后在微博上分享了链接。这篇千余字的小文写于前一天,连母亲李哲也不知道他用鼠标点着拼音写了多久。  当时的程浩在医院里忍着感冒的煎熬,“每次呼吸,如同千万枚钢针在肺叶间穿梭。”他在文章开头轻描淡写地说“呼吸都是一种奢侈”,后面的文字却越发坚定,“我
移植的梦想    初中时,我最喜欢的英语老师告诉我,她曾经最想读的大学是厦门大学,那个校内可游湖、出门可看海的大学,是她未实现的梦想。那是我第一次听说厦门大学,也许在那时,老师梦想的种子已经深深地种到了我的心里。  高考结束,老爸问我的感觉,我无厘头地答了一句:“北大清华没把握,厦门大学总考得上的。”求稳的老爸之后就一直鼓励我报考厦门大学。我当时只想报考新闻专业,至于什么学校倒真的无所谓,于是干脆
拥抱绿色科技,迎接低碳生活,那么目前市场上究竟有哪些值得我们选购的环保IT新品呢?它们又有着怎样的环保功能或技术?它们是否代表着IT环保未来的发展方向呢?    13英寸超轻薄的环保智慧    作为受到过绿色和平组织(Green Peace)赞扬,并获得Computex 2010 Tai pei最佳环保产品奖(Best Green IT Award)的笔记本电脑,Acer Aspire 3811T
【摘要】在科技飞速发展的时代,英语的重要越来越被更多的人发现。英语学科是一门艺术,而课堂就是展示这门学科艺术魅力的展台。在课堂上对学生进行提问是各学科的教师常用的教学方法之一,而提问这一环节也是课堂进行必不可少的一个环节。英语这一学科在生活中的应用就是在人际交往方面,而教师可以通过在课堂上进行对学生的提问,来达到提高学生英语水平的目的。课堂提问这一环节越来越得到教师的重视,而想要实施这一教学方法也
【Abstract】Willa Cather is an eminent writer who achieved recognition for her novels of frontier life on the Great Plains. Most of her famous long novels are songs of pioneers. Her early frontier novel
《布达佩斯的故事》不是一部好作品,但是很重要——因为故事里的两个主角很重要。卡尔?波兰尼(Karl Polanyi)和迈克尔?波兰尼(Michael Polanyi),他们兄弟俩是人类思想史上不应被忽视的人物。然而事实是他们都没有得到足够的重视,以及应有的荣耀。  卡尔?波兰尼是社会思想家、经济史学家、经济人类学家。他写于上世纪40年代的巨著《大转型》描述了西方世界从前工业社会向工业社会转变的大进
《我是独生女(子)》是苏教版·中图版《品德与社会》五年级下册的主题单元《家家有本难念的经》中的第四课。本课引导孩子辩证地看自己,发现独生子女的优势,正视自身存在的问题,鼓励学生认识自己、超越自己,逐步构建完善自我和规划人生的能力。  一、谈话激趣迎话题  1.从1979年我国推行计划生育以来,据不完全统计,目前独生子女数已经达到了9000多万。独生子女的队伍这么庞大,关注的人、研究的人越来越多。今
【摘要】改革开放后,汉语中出现英语外来词,而在全球化趋势下,不同的语言文化相互影响,汉语与英语也随着人们的密切来往影响程度日益加深,汉语中吸纳了越来越多的英语外来词。本文将从词汇音韵特点、汉语词汇语义特点及文化内涵两个角度讨论汉语语言文化对汉语中的英语外来词的构成及翻译的影响。希望能使更多的语言学习者了解汉语语言文化及其对于汉语中的英语外来词的构成及翻译的影响,更好地理解与发展汉语中的英语外来词。
党的十九届四中全会指出,要坚持以社会主义核心价值观引领文化建设,要把社会主义核心价值观的培育融入国民教育的全过程。作为中学德育的主阵地,思想政治课必须落实“立德树人”的根本任务,让社会主义核心价值观教育真正落地落实。2019年12月6日,以“打造品质课堂,促进素养提升”为主题的第35届“百花奖”教学比赛在我校成功举行。本次活动开设的课题是“民主管理:共创幸福生活”,虽是同课异构,但三位老师异中见同
盗梦空间。  站在北京广渠门桥西的人行天桥上向东眺去,你先看到一个大大的下坡,接着,再来一个大大的上坡,一直延伸到天际线的尽头。  V字形的路面上车流如织,行人在里面跃跃欲试,想抢着红灯过街。路面干爽,司机们按着喇叭,避让着行人,急匆匆冲下坡,急匆匆冲上坡,仿佛7月21日不曾来过。  当日,在一场被官方称为“北京61年来的最大暴雨”中,32岁的丁志健驶入了东二环主路上的广渠门桥,在3米深的积水中被