AMD Radeon HD 7970专题测试 小核心 大作为

来源 :新电脑 | 被引量 : 0次 | 上传用户:diyapple
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  早在4年前,AMD就已经忍痛放弃了使用多年的环形显存总线,重新采用高效的交叉总线设计,进而推出的RV770核心HD4800系列产品凭借高效的显存利用率和激进的GDDR5显存打了一场漂亮的翻身仗。而其2009年推出的Radeon HD 5800系列则是凭借大量增加流处理器数量和先进的40nm的新工艺,在取得较高性能的同时在核心面积和功耗方面大幅领先于英伟达,让对手猝不及防。不过由于工艺的限制,AMD不可能依靠无限制地堆积流处理器来提高显示卡的性能,再加上VILW架构单元复用率低并且在通用计算方面的性能不尽如人意,因此在经历了Radeon HD 6800和Radeon HD 6900系列显示卡,VILW5和VILW4架构的试水之后,AMD发现要想彻底解决这个棘手的问题,只能重新设计新的架构,于是“南方群岛”的Radeon HD 7000系列显示卡诞生了。
  踏上28nm的快船
  在晶体管规模为王的今天,每一次工艺的变化给显示卡界带来的变化都是惊人的,工艺越先进,单个晶体管的体积就越小,芯片密度也会随之增加,这带来的最直观的优点就是核心面积缩小和成本降低。此外,新工艺通常都会伴随着更先进的漏电流控制技术,在功耗方面的表现也会更加优异。
  这一次,AMD又一次领先于对手,抢先踏上了28nm工艺的快船。本次发布的Radeon HD 7970便是采用TSMC的28nm工艺打造,这是TSMC首次采用HKMG(高K金属栅)和Gate-Last技术。TSMC称,与40nm工艺相比,28nm工艺的芯片密度达到了前者的2倍,SRAM的面积可以减少50%。新材料、新技术的应用使得采用28nm工艺芯片的速度比40nm工艺提高了45%,漏电流相比前代更是减少40%,大大降低了功耗。
  得益于28nm工艺,代号为Tahiti的Radeon HD 7970显示卡核心的晶体管规模达到了43.1亿,而核心面积仅为365mm²,典型功耗210W(最大功耗250W)。而上一代40nm工艺的Radeon HD 6970的核心面积为389mm²,只包含了26.4亿个晶体管,典型功耗为190W,最大TDP功耗为250W。也就是说HD 7970在晶体管数量增加了60%的情况下,却将核心面积缩小了6%。在单位数量晶体管功耗方面,Radeon HD 7970每一亿个晶体管4.9W的功耗也远低于采用40nm工艺的Radeon HD6970的7.2W。通过以上的数字我们可以轻易地看出,28nm新工艺带来的进步是显而易见的。
  GCN架构上马
  自从R600架构推出以来,AMD的图形构架就没有发生过本质的变化。VLIW形式的ALU团簇设计、整体化的运算结构以及较低的单元复用率一直在修修补补的情况下陪伴了我们近5年。
  在DirectX10推出之前,显示卡比拼的是顶点渲染单元和像素渲染单元的数量,到了DirectX10时代,微软的DirectX API取消了顶点渲染器和像素渲染器,将它们改成统一处理器(Unitied Processor),因此图形渲染中标量运算越来越多,单纯的矢量运算成分却在减少,为此AMD的对手英伟达重新设计了G80这样的1D标量处理器,而AMD却并未完全放弃4D矢量架构,而是在此基础上做了一些改良,增加了一个标量运算单元,形成了4D+1D的矢量、标量混合架构——VLIW 5架构。这个架构有个致命的缺点就是太过依赖指令组合,一旦出现非最优指令组合,运算效率便会大大降低,为此AMD在下一代的Radeon HD 6900系列显示卡架构上改进了VLIW 5架构,去掉了4D+1D中的1D单元,改进为VLIW 4。VLIW 4架构中的4个运算单元均为1D单元,都可以执行原本只有VLIW 5架构中唯一的1D超标量单元才能执行的特殊函数操作,所以VLIW 4的流处理器单元数量虽然少了,但是实际上性能却更加强劲。据AMD称,VLIW 5架构的运算效率实际只有70%左右,而VLIW 4可以提高到80%,不过AMD为此付出的代价也是高昂的。这种架构的改变,每组流处理器所需的发射端、分支预测以及寄存器单元都要增加四分之一,导致核心面积、发热量和成本大增。
  如今,乘着28nm工艺快船的AMD终于放弃了使用多年实在无法继续修补使用的VILW架构,推出了全新的GCN(Graphics Core Next)架构。AMD对GCN架构的定义为“Non-VLIW ISA With Scalar+VectorUnint”,即使用标量和矢量单元的非VLIW体系,它与之前的VLIW架构形似而神不同,显示卡的组成单元不再是SIMD阵列,而是被称为CU(Compute Unit)的计算单元。在Radeon HD 7970核心的Tahiti架构图中,每个“GCN”代表的就是一个CU单元,每个CU单元中又包含64个ALU单元,这2048个ALU就是Radeon HD 7970显示卡的核心运算单元。
  从Tahiti的GVN阵列微观结构我们可以发现,每个GCN阵列里有4组SIMD单元,每组SIMD单元里面包括16个流处理器,或者说是标量运算器。GCN架构已经完全抛弃了此前4D+1D流处理器VLIW超长指令架构的限制,不存在原有架构指令打包-派发-解包的问题,所有流处理器以16个为一组的SIMD阵列完成指令调度。简单来说,以往是在指令集的级别上并行,而现在是线程级并行。与VLIW 4架构相比,non-VLIW架构最大的变化是指令执行方式,VLIW 4虽然每周期执行4次操作,但实际上还是执行1条指令,而且它非常依赖指令的组合,需要极强的调度和管理,而non-VLIW架构虽然每次只能执行1个ALU操作,但是4组SIMD依然能保证同时执行4条线程,利用率接近100%,相对于之前的架构,不得不说这是一个脱胎换骨的设计。
  设计理念的转变使GCN不再单纯追求吞吐量,而是将重点转向了灵活性和执行效率方面,整个架构从最基层开始就为更灵活的运算优化,架构中层的运算单元在并行效率上也有针对性的改进,整个GCN架构更加面向“通用计算就是图形计算”的未来趋势。
  深度功耗控制和新特性
  除了因为应用新的28nm工艺带来了例行的功耗降低之外,AMD还在技术上引入了更加敏感的功耗调节点,能够更加细密地实时监控显示卡的运行状态,同时能让显示卡在负载降低时更加积极地向更低功耗的频率去转移。值得一提的是,其调整耗电水平的侦测时间已经达到了毫秒级。
  Tahiti核心在电力控制上的另一个独特之处在于引入了ZeroCore技术,该技术能够在闲置的时候通过关闭GPU节省95%左右的闲置模式耗电,此时GPU的运算功能模块将不再消耗电能,使整个显示卡耗电低于3W,风扇也会彻底关闭,完全避免了噪声对用户的干扰。在多卡互联领域,AMD同样提供了更加丰富的功耗管理机制。当用户处于2D桌面待机状态时,Tahiti构架允许主显示卡以外的所有显示卡完全关闭,并达到风扇停转的深度休眠状态。当3D负载到来时,功耗管理机制会及时唤醒深度休眠的显示卡,让其能够投入到运算工作中。
  除了28nm新工艺和革命性的GCN架构外,AMD还让Radeon HD 7970支持两项前卫的新特性DirectX 11.1与PCI-E 3.0接口。DirectX 11.1最大的改进就是将3D立体显示技术正式写入了D3D API,3D立体显示技术将成为一种通用标准,游戏开发也因此将变得更加简单,这有望为业界酝酿已久的PC 3D显示技术真正打开局面,可以说它是一个具有开端意义的API升级。
  总线接口方面,Radeon HD 7970显示卡采用了全新的PCI-E 3.0总线,这让它成为了全球首款支持PCI-E 3.0总线的显示卡。PCI-E 3.0标准将信号传输速率提高到了8GT/s ,有效带宽达到了PCI-E 2.0的两倍,不过目前对于游戏玩家来说PCI-E 2.0的带宽并不会成为显示卡性能的瓶颈,PCI-E 3.0的优势发挥作用仍需时日。
  3D性能实战
  全新的GCN架构、43.1亿个晶体管、2048个ALU运算单元让我们对Radeon HD 7970的性能表现充满了期待。好马配好鞍,测试Radeon HD 7970性能的平台我们选择了当今顶级的X79主板,搭配Intel Core i7-3960X处理器和2GB×4的DDR3 1866四通道内存,并采用64位的Windows 7系统,以充分发挥它的性能。
  不出所料,凭借强大规格和全新的GCN架构,在3DMark理论图形性能测试中,Radeon HD 7970毫无悬念地大幅领先曾经的Geforce GTX 580达30%之多。在AMD一直都不擅长的曲面细分性能测试Unigine Heaven 2.5中,Radeon HD 7970也扬眉吐气,领先Geforce GTX 580高达30%以上。
  在主流游戏性能测试中,除了在英伟达传统优势游戏《H.A.W.X》中Radeon HD 7970不敌对手外,在其他测试中Radeon HD 7970均有较大幅度的领先,在最新的DX11游戏中普遍领先GeforceGTX 580 15%~30%的幅度,特别是在曲面细分较多的游戏《Crysis 2》和《战地3》中,优势更加明显。
  多年来在单芯旗舰显示卡方面,AMD一直采用田忌赛马的小核心策略,在性能上被对手打压,如今在中低端产品方面有着多个“第一”头衔的Radeon HD 7970终于扬眉吐气,将对手大核心的单芯卡皇斩于马下。
  出色的功耗表现
  在上边我们已经介绍过,Radeon HD 7970的Tahiti核心拜28nm新工艺和新节能技术所赐,在功耗方面的表现会更好。我们测试了这款产品在长待机、待机、游戏和运行Furmark 1.9.2等不同状态下的功耗(测试室温约为24℃)。
  进入系统10min后,稳定的系统功耗为81W(不含显示器功耗),此时显示卡核心温度仅比室温高10℃,为34℃,风扇转速也仅为最高转速的20%,十分安静。在经过长时间的待机,Windows电源管理器自动关闭了显示器输出(但系统未休眠)后,待机功耗又下降了7W,这也证明了ZeroCore技术的作用。而对手的Geforce GTX 580平台待机功耗为101W,在显示卡2D功耗普遍降低的大趋势下,Radeon HD 7970在2D显示模式下的功耗表现也有着绝对的优势。在高负载的游戏和Furmark拷机软件模式中,Radeon HD 7970平台在较长一段时间内稳定的最高功耗分别上升为305W和362W,显示卡的核心温度分别为78℃和73℃,此时两种状态下散热器的转速均超过了2000r/min,已经可以听到明显的噪音。而相比之下,Geforce GTX 580平台在同样两种高负载情况下的功耗分别为378W和447W,分别比Radeon HD 7970高了73W和85W,在满载功耗方面AMD再一次以绝对优势战胜对手。
  免费的超频甜点
  在Radeon HD 7970发售之前,有许多传闻称其默认核心频率会是1GHz,或许是出于功耗控制和保守的原因,AMD将其核心频率定为了925MHz,让用户自行挖掘28nm工艺的潜力。
  而Radeon HD 7970的超频方法十分简单,使用驱动中自带的AMD Overdrive选项即可进行超频,无需安装第三方超频软件。除了核心频率和显存频率可调节外,AMD Overdrive还提供了一个“电源控制设置”选项,调节它可以限制整片显示卡的最高功耗,以防出现过热烧毁的现象。在超频中我们需要将电源控制设置拉至最高的20%,以保证超频操作不会被最高功耗限制。
  在超频测试中,我们很轻松地就将Radeon HD 7970的核心频率和显存频率超频至驱动的频率上限1125MHz/1575MHz并通过了3DMark 11的各项测试,最终X模式的得分为3135分,相比默认频率成绩增加了14%之多。
  总结
  如果AMD继续走之前优化和扩充流处理器数量的老路,那么凭借28nm新工艺和43.1亿个晶体管,相信其性能和功耗依然可以达到预期,但是AMD并没有这么做,而是毅然选择了通过革新架构的方式来积极提升产品整体表现。有很大一部分的原因是因为如今的GPU已经不再是单纯的3D加速卡,DirectX 11 API的新特性赋予了GPU新的使命,图形和计算的概念已经逐渐融为一体,通用计算能力也逐渐成为衡量显示卡性能的标杆,AMD在这步关键的棋上落子非常干脆利落。
  我们十分欣喜地看到,新的GCN架构为AMD未来的发展方向指明了道路,走了近5年弯路的AMD改头换面,朝着通用计算大方向大踏步前进,这也是未来GPU的发展趋势。
  在性能方面,Radeon HD 7970的表现可圈可点,无论是理论性能还是实际游戏性能都将对手远远地抛在了身后,成为了新一代当之无愧的单芯卡皇。而在功耗方面,它继续将AMD一贯的小核心、低功耗的优良传统发扬光大,而这也是对手大核心策略所挥之不去的痛,AMD又一次强有力地触痛了对手的神经。Radeon HD 7970国内的发售价格为4299~4699元,相对于之前的单芯旗舰显示卡来说有些偏高,不过相信在一段时间之后,它将很快脱离价格虚高回归到主流价位。
  
  高K栅极
  现有材料已经达到了物理极限,由于漏电的原因,作为阻隔栅极和下层的二氧化硅层已经无法进一步减薄了,于是人们就需要从材料方面入手,寻找具有比二氧化硅更高的介电常数和和场效应特性的材料,从而突破原有的二氧化硅的物理极限。
  K值是衡量一种材料储存电荷的能力,给定相同的电压,如果材料的的厚度相同,K值大的材料则储存电荷的能力就更高。在具有相同储存电荷能力的情况下,K值大的材料可以做得更厚,这就可以减少漏电的产生。
其他文献
常规论调  只需要在电脑上增加一块硬盘,组成RAID系统,数据的安全性就有了保障。即使其中的一块硬盘遇到了故障,也不会损失任何数据。  技术事实  不幸的是,关于RAID安全性的假设是不成立的。为了避免我们遇到损失数据的情况,必须对所有重要数据进行备份。RAID并不是专门的备份方案,它的目的是提高数据的可访问性。经典的RAID方案就是用户将几块硬盘连接起来,加快数据的读取速度以及提供一定的容错性。
期刊
如果谁在上世纪90年代初的演讲中提到“搜索(search)”,那么他不是一名牧师或者哲学系研究生,就是一名私家侦探。那时,搜索有两方面的含义。一种是“众里寻他千百度”的含义,比如寻找(search)丢失的钥匙或者在Crossword填字游戏中寻找由3个字母组成的哺乳动物名称;另一种含义则是抽象的“路漫漫其修远兮,吾将上下而求索”,比如寻求(search)生命的意义。总之它都与现在我们提到的网页搜索
期刊
社交游戏Wooga  德国社交游戏Wooga拥有4000万玩家,他们在Wooga所构筑的巨大王国中流连忘返。仅用两年时间,Wooga就超过了EA成为世界第二大的社交游戏开发商。2011年5月,Wooga成功融资2400万美元。    电子商Zalando  成立仅4年,德国主营服装、鞋、化妆品的时尚购物网站Zalando,在2011年创下了10亿欧元的销售额纪录。    eDarling婚恋网  
期刊
在1980年的一天,德国汉堡机场发出警报称“机场附近出现了不明飞行物”。一个大约3m长的飞行器悬浮在机场上空,当时大部分飞行员和指挥塔上的工作人员都因为这个警报绷紧了自己的神经。不过很快,这个不明飞行物(UFO)就找到了合理解释,原来它是一个儿童玩具——Zeppelin“太阳能”飞艇,这个玩具飞艇居然是德国YPS系列漫画书的随书赠品而已。  从1975年起,YPS系列漫画中的每一本书都随书赠送小读
期刊
与严格遵循甚至有时会超越摩尔定律发展速度的传统IT产品,如处理器相比,投影机产品在基本性能上的提升幅度似乎是永远跟不上节奏。至今为止,采用传统高压汞灯的产品也没有能在亮度、功耗比上出现太大的突破,连续几年投影机产品的主流亮度都维持在2000lm~3000lm,功耗在200W左右。虽然标称灯泡寿命有所提升(普遍5000h),但也绝对称不上是质的飞跃。而作为投影市场上最为成熟的产品线,商用和教育类投影
期刊
目前,市场上主流的商用及家用投影机主要采用3LCD和DLP技术,这些产品主要使用传统的高压汞灯等光源,这类灯泡光源虽然在亮度上可以满足使用要求,但是在功耗和发热量方面却往往比较惊人,这严重制约了投影机体积的进一步减小,使投影机一直无法摘下“笨重”的帽子。更为重要的是,传统投影机灯泡的使用寿命往往很短,通常使用5000小时左右亮度就可能降至最初的一半,需要进行更换。在使用不当的情况下,灯泡的寿命还可
期刊
松下LUMIX DMC-GX1GK(以下简称GX1)在之前机型的基础上不断创新,并将套装镜头进行大幅改良。它结合了源自GF2的高速自动对焦系统和G3的1600万像素高规格影像传感器,并继续提升对焦速度、影像质量。松下还将套装镜头改为电动变焦,并进一步缩小其体积,提升了变焦性能和便携性。但是在现今强手如林的微单数码相机界,GX1能否继承GF系列的耀眼光环?本期的专题测试将揭示它的实力。  配置和操控
期刊
以亚马逊Kindle为代表的E-Ink电子书阅读器出现的时候,已经有一部分人在探讨“纸质书的末日”,原因是Kindle可以再现纸质书的显示效果。不过,当iPad问世后,人们又看到支持多点触摸的iPad可能是数字出版物的载体,于是我们看到了各种具有多媒体内容的交互式报刊、杂志和书籍登陆iPad。  同时,传统印刷出版领域的领导者Adobe也及时更新了InDesign排版软件,为其增加了Folio P
期刊
提及游戏电脑,高人一等的配置和性能,是它最为吸引眼球的,这类产品可谓是软硬件相互推动发展的典范——为了可以满足最新游戏对性能的需求,顶级性能的配件被广泛用于电脑产品中;与此同时,不断更新的硬件,又需要可以发挥其特性的应用,两者一拍即合。在本次专题中,4款来自不同厂商的PC产品都打出了各自的游戏招牌,可谓是各显神通。没有了价格的限制,各类最新的零部件以及提升性能的设计方案被广泛采用,因此性能表现优异
期刊
从主观感受上讲,手指的触控操作虽然更加简单,但是并不如鼠标操作灵敏和精确,因此传统的操作系统界面必须经过彻底的重构,才能适应触摸屏操作。为触摸屏设计产品时需要更加注重直觉化的交互操作,传统界面中常见的滚动条和右键菜单是必须摒弃的,所有的按钮、菜单和图片等元素的尺寸都必须足够大,以保证在10英寸的小屏幕上可以轻松地用指尖点击。当然,这样做难以避免的就是在24英寸甚至更大的屏幕上会造成空间浪费,显得空
期刊