论文部分内容阅读
“史上最快、最有效率的GPU!”&“以最低的功耗代价换来最为极致的性能!”——NVIDIA
凭借28nm先进工艺和全新的GCN架构,AMD的“南方群岛”家族在高端显卡市场上出尽风头。不过,随着研发代号为“Kepler”的NVIDIA下一代显示核心的发布,两大阵营的新一代最强显卡终于棋逢对手。
显卡性能王位之争,现在才正式开始。
以彼之道的“小”胜
桌面“Kepler”首发测试
从GT200开始,NVIDIA的铁壳封装就再没让我们看过GPU的真身。也是从那时开始,小核心策略成为TAMD反击NVIDIA的一个利器。还是从那时候开始,NVIDIA的产品总能后发制人,长期占据显卡性能王座的位置。这一切显得那么顺理成章,以至于我们从来没有想过NVIDIA会做出一个小巧的旗舰显示核心。事实上,你能想象出NVIDIA设计的小核心会是什么样子吗?它是否还能保持性能上的领先优势?
在能耗比上是否能后来居上?
别想了,让GeForce GTX 680来告诉你一切!
NVIDIA的第一款“小”核心旗舰
3个月前,AMD发布了基于GCN架构的新一代旗舰显卡Radeon HD 7970。在我们的测试中,它以非常明显的优势战胜了当时NVIDIA的旗舰GeForceGTX 580。在接下来的时间里,玩家们都在等待NVIDIA发布新的产品,届时好对比选择自己的下一块玩物。按当时的推测,新产品要想稳获显卡王位,就必须拥有超过GTX 580至少40%的性能。想必又将是一颗核心面积在500mm2左右的规格怪兽。让大家没有想到的是,NVIDIA为我们准备的“Kepler”架构首款核心(GK104),竟是一颗核心面积不到300mm2的“小”核心。接下来,Mc评测工程师会将GK104的特征划分为基础(计算)特性和功能特性分别进行介绍。其中功能特性将会以夹叙夹“测”的体验方式为你展现。
除了更新Polymorph Engine引擎,以提高GK104芯片上单位面积的计算性能。NVIDIA的工程师还优化了GK104上的基础计算架构,以期达到在尽可能小的芯片内塞进更多计算核心的目的。如果你稍微留意过GF110的SM构成,你会发现“Fermi”的每个sM的内只有32个CUDA核心,也就是说SM内的一套逻辑控制单元只管理32个核心的工作调度。而GK104上,这个比例被放大到了192个。降低逻辑控制单元和指令发射器的比例,用较少的逻辑单元去控制更多的CUDA核心。从这个层面上来看,NVIDIA似乎借鉴了AMD经典的SIMD架构设计思路。有趣的是我们之前分析GCN设计构思时,发现AMD才大刀阔斧的改进了SIMD,向“Fermi”的MIMD架构靠拢。不管怎么说,拜这种思路所赐,GK104的流处理器数量(CUDA数量)达到惊人的1536个,在晶体管数量增加不到18%的情况下,将流处理器数量增加到了GF110的3倍。
此时相信有读者会担心“降低控制单元的比例那是不是意味着NVIDIA从G80开始赖以成名的高效率将一去不复返?”理论上,肯定会导致效率下降,但真实情况是效率下降的问题并不严重。而这多亏了指令调度的“软”着陆。事实上,NVIDIAI程师发现线程的调度有一定的规律性,编译器所发出的条件指令可以被预测。在“Fermi”及以前,这部分工作是由GPU内专门的硬件单元来完成的。而在GK104上,这部分工作将根据预测性,交由简单的软件程序来处理。这样就能节约不少晶体管,简化CUDA单元,简化控制和调度单元的硬件设计。不过我们担心由此开始,N家的显卡也将出现比较明显的软件优化依赖,驱动或游戏的优化不到位将会明显影响“Kepler”架构的发挥。
为了能耗比,频率不再分家
细心的读者可能已经从表1中看出GTX 680的规格中不再单独列出Shader频率,这是怎么回事?按照NVIDIA的说法,从G80时代开始采用的异步Shader频率设计是为了能在尽量少的芯片面积下实 现更高的吞吐量。但这是以牺牲功耗为代价的,这种设计需要2倍于同步频率的流水线硬件,和双倍的重定时功耗。每个硬件单元的耗电最高会达到4倍于同步频率的水平。现在,“Kepler”的设计改变了以往架构流处理数量明显不足的劣势,没有必要再沿用这种高功耗的设计。毕竟“Kepler”的目标不仅是提高性能还更注重能耗比。
解除绑定,让纹理质量向极致靠拢
1920X 1080是当前大多数玩家使用的分辨率。在这个分辨率下,GTX 680能轻松压制住上代旗舰——GTX 580。基准测试中,它的领先幅度超过了我们之前预期的40%的心理底线。但是实际游戏中这个幅度又有所打折。特别是在面对开启抗锯齿的压力环境下,GTX 680相比GTX 580的领先优势会大幅下滑。这显然是受到了显存位宽和光栅单元减少的负面影响。总的来说,这次换代的性能提升幅度,勉强满足了用户的期望。
相比HD 7970,GTX 680领先还是毋庸置疑的。从表2中你能看到,GTX 680的游戏性能平均领先HD 7970约12%,看似和基准测试极为吻合。不过仔细查看数据你会发现,在《异形大战铁血战士》、《地铁20339以及《使命召唤:现代战争3》中,两卡的性能其实大致处于一个水平线上。而在另外几款游戏中,GTX 680的领先优势又明显超过了平均值。看来我们对“Kepler”软件依赖性的担心并非多余。相比“Fermi”(GTX 580),“Kepler”(GTX 680)在不同游戏中的表现更加不稳定。不过,换个角度看,这也许是“Kepler”的一个优势。毕竟它能通过软件(如驱动)的后续优化,获得更大的性能提升。
面对自家的上代双芯旗舰GTX 590时,GTX680的情况和HD 7970面对HD 6990时一样。在部分游戏中GTX 680有匹敌、甚至超越GTX 590的表现。但大部分游戏中,GTX 680还是明显落后,单拳实难敌双手。
2560分辨率谁是真卡皇?
坦白说,对于GTX 680和HD 7970这样的顶级显卡,1080p分辨率已经不足以构成渲染压力。超过100的最低帧数让测试变成了纯数字的比拼,此时我们已经感觉不到游戏体验的变化。所以,MC评测工程师决定将游戏分辨率提升到2560X 1440的高度。在这个分辨了下开启全特效运行大型3D游戏,几乎能榨干显卡的计算性能。谁能顶住这个压力成为新一代卡皇,获得顶级玩家的青睐?
在这个分辨率下,所有参测显卡的测试成绩都较1080p时大幅下滑。GTX 680基准测试的GPU成绩下滑59.5%,下滑幅度比HD 7970的56.5%更严重。游戏实测的情况和基准测试比较吻合。GTX 680和HD7970的平均帧率都大幅下滑,GTX 680相比HD 7970的领先优势较1080p分辨率有所降低,但整体依然胜出约7个百分点。很显然,GTX 680再胜一局,新一代的卡皇非它莫属。但不得不说的是,在这种高分辨率下,即使是GTX 680也会在部分游戏中失去可玩度,平均帧数达不到30帧。从这个角度看,不论是A家还是N家,顶级单卡都不足以满足高端玩家的需求。顶级多卡并联才是高端用户的新追求。那GTX 680 SLI系统的并联效率如何呢?让我们这就来一窥究竟。
中的表现较为出色,相对单 卡系统平均帧率提升非常明显。虽然整体不及基准测试的领先幅度大,但在将测试分辨率拔高到2560×1440高度的时候,SLI系统的效率就能很接近基准测试体现的情况,游戏平均帧率相对单卡系统几乎翻番。此外,MC评测工程师注意到,新架构下的SLI系统并未能完全解决并联计算的最低帧率倒退问题。在我们的测试中依然偶有SLI系统最低帧率不及单卡系统的情况发生。所以我们建议,只是希望在1080p分辨率下畅玩游戏的玩家,性能强劲的GTX 680单卡就已经能够满足你的需要。但已经沉迷或即将被高分辨率呈现的精美画质所征服的玩家,请义无反顾的组建SLI吧。能在2560×1440这种分辨率下畅玩《战地3》这样的画质党游戏,确实是一种享受。
通用计算
凭借28nm先进工艺和全新的GCN架构,AMD的“南方群岛”家族在高端显卡市场上出尽风头。不过,随着研发代号为“Kepler”的NVIDIA下一代显示核心的发布,两大阵营的新一代最强显卡终于棋逢对手。
显卡性能王位之争,现在才正式开始。
以彼之道的“小”胜
桌面“Kepler”首发测试
从GT200开始,NVIDIA的铁壳封装就再没让我们看过GPU的真身。也是从那时开始,小核心策略成为TAMD反击NVIDIA的一个利器。还是从那时候开始,NVIDIA的产品总能后发制人,长期占据显卡性能王座的位置。这一切显得那么顺理成章,以至于我们从来没有想过NVIDIA会做出一个小巧的旗舰显示核心。事实上,你能想象出NVIDIA设计的小核心会是什么样子吗?它是否还能保持性能上的领先优势?
在能耗比上是否能后来居上?
别想了,让GeForce GTX 680来告诉你一切!
NVIDIA的第一款“小”核心旗舰
3个月前,AMD发布了基于GCN架构的新一代旗舰显卡Radeon HD 7970。在我们的测试中,它以非常明显的优势战胜了当时NVIDIA的旗舰GeForceGTX 580。在接下来的时间里,玩家们都在等待NVIDIA发布新的产品,届时好对比选择自己的下一块玩物。按当时的推测,新产品要想稳获显卡王位,就必须拥有超过GTX 580至少40%的性能。想必又将是一颗核心面积在500mm2左右的规格怪兽。让大家没有想到的是,NVIDIA为我们准备的“Kepler”架构首款核心(GK104),竟是一颗核心面积不到300mm2的“小”核心。接下来,Mc评测工程师会将GK104的特征划分为基础(计算)特性和功能特性分别进行介绍。其中功能特性将会以夹叙夹“测”的体验方式为你展现。
除了更新Polymorph Engine引擎,以提高GK104芯片上单位面积的计算性能。NVIDIA的工程师还优化了GK104上的基础计算架构,以期达到在尽可能小的芯片内塞进更多计算核心的目的。如果你稍微留意过GF110的SM构成,你会发现“Fermi”的每个sM的内只有32个CUDA核心,也就是说SM内的一套逻辑控制单元只管理32个核心的工作调度。而GK104上,这个比例被放大到了192个。降低逻辑控制单元和指令发射器的比例,用较少的逻辑单元去控制更多的CUDA核心。从这个层面上来看,NVIDIA似乎借鉴了AMD经典的SIMD架构设计思路。有趣的是我们之前分析GCN设计构思时,发现AMD才大刀阔斧的改进了SIMD,向“Fermi”的MIMD架构靠拢。不管怎么说,拜这种思路所赐,GK104的流处理器数量(CUDA数量)达到惊人的1536个,在晶体管数量增加不到18%的情况下,将流处理器数量增加到了GF110的3倍。
此时相信有读者会担心“降低控制单元的比例那是不是意味着NVIDIA从G80开始赖以成名的高效率将一去不复返?”理论上,肯定会导致效率下降,但真实情况是效率下降的问题并不严重。而这多亏了指令调度的“软”着陆。事实上,NVIDIAI程师发现线程的调度有一定的规律性,编译器所发出的条件指令可以被预测。在“Fermi”及以前,这部分工作是由GPU内专门的硬件单元来完成的。而在GK104上,这部分工作将根据预测性,交由简单的软件程序来处理。这样就能节约不少晶体管,简化CUDA单元,简化控制和调度单元的硬件设计。不过我们担心由此开始,N家的显卡也将出现比较明显的软件优化依赖,驱动或游戏的优化不到位将会明显影响“Kepler”架构的发挥。
为了能耗比,频率不再分家
细心的读者可能已经从表1中看出GTX 680的规格中不再单独列出Shader频率,这是怎么回事?按照NVIDIA的说法,从G80时代开始采用的异步Shader频率设计是为了能在尽量少的芯片面积下实 现更高的吞吐量。但这是以牺牲功耗为代价的,这种设计需要2倍于同步频率的流水线硬件,和双倍的重定时功耗。每个硬件单元的耗电最高会达到4倍于同步频率的水平。现在,“Kepler”的设计改变了以往架构流处理数量明显不足的劣势,没有必要再沿用这种高功耗的设计。毕竟“Kepler”的目标不仅是提高性能还更注重能耗比。
解除绑定,让纹理质量向极致靠拢
1920X 1080是当前大多数玩家使用的分辨率。在这个分辨率下,GTX 680能轻松压制住上代旗舰——GTX 580。基准测试中,它的领先幅度超过了我们之前预期的40%的心理底线。但是实际游戏中这个幅度又有所打折。特别是在面对开启抗锯齿的压力环境下,GTX 680相比GTX 580的领先优势会大幅下滑。这显然是受到了显存位宽和光栅单元减少的负面影响。总的来说,这次换代的性能提升幅度,勉强满足了用户的期望。
相比HD 7970,GTX 680领先还是毋庸置疑的。从表2中你能看到,GTX 680的游戏性能平均领先HD 7970约12%,看似和基准测试极为吻合。不过仔细查看数据你会发现,在《异形大战铁血战士》、《地铁20339以及《使命召唤:现代战争3》中,两卡的性能其实大致处于一个水平线上。而在另外几款游戏中,GTX 680的领先优势又明显超过了平均值。看来我们对“Kepler”软件依赖性的担心并非多余。相比“Fermi”(GTX 580),“Kepler”(GTX 680)在不同游戏中的表现更加不稳定。不过,换个角度看,这也许是“Kepler”的一个优势。毕竟它能通过软件(如驱动)的后续优化,获得更大的性能提升。
面对自家的上代双芯旗舰GTX 590时,GTX680的情况和HD 7970面对HD 6990时一样。在部分游戏中GTX 680有匹敌、甚至超越GTX 590的表现。但大部分游戏中,GTX 680还是明显落后,单拳实难敌双手。
2560分辨率谁是真卡皇?
坦白说,对于GTX 680和HD 7970这样的顶级显卡,1080p分辨率已经不足以构成渲染压力。超过100的最低帧数让测试变成了纯数字的比拼,此时我们已经感觉不到游戏体验的变化。所以,MC评测工程师决定将游戏分辨率提升到2560X 1440的高度。在这个分辨了下开启全特效运行大型3D游戏,几乎能榨干显卡的计算性能。谁能顶住这个压力成为新一代卡皇,获得顶级玩家的青睐?
在这个分辨率下,所有参测显卡的测试成绩都较1080p时大幅下滑。GTX 680基准测试的GPU成绩下滑59.5%,下滑幅度比HD 7970的56.5%更严重。游戏实测的情况和基准测试比较吻合。GTX 680和HD7970的平均帧率都大幅下滑,GTX 680相比HD 7970的领先优势较1080p分辨率有所降低,但整体依然胜出约7个百分点。很显然,GTX 680再胜一局,新一代的卡皇非它莫属。但不得不说的是,在这种高分辨率下,即使是GTX 680也会在部分游戏中失去可玩度,平均帧数达不到30帧。从这个角度看,不论是A家还是N家,顶级单卡都不足以满足高端玩家的需求。顶级多卡并联才是高端用户的新追求。那GTX 680 SLI系统的并联效率如何呢?让我们这就来一窥究竟。
中的表现较为出色,相对单 卡系统平均帧率提升非常明显。虽然整体不及基准测试的领先幅度大,但在将测试分辨率拔高到2560×1440高度的时候,SLI系统的效率就能很接近基准测试体现的情况,游戏平均帧率相对单卡系统几乎翻番。此外,MC评测工程师注意到,新架构下的SLI系统并未能完全解决并联计算的最低帧率倒退问题。在我们的测试中依然偶有SLI系统最低帧率不及单卡系统的情况发生。所以我们建议,只是希望在1080p分辨率下畅玩游戏的玩家,性能强劲的GTX 680单卡就已经能够满足你的需要。但已经沉迷或即将被高分辨率呈现的精美画质所征服的玩家,请义无反顾的组建SLI吧。能在2560×1440这种分辨率下畅玩《战地3》这样的画质党游戏,确实是一种享受。
通用计算