NVIDIA GeForce RTX 3080全球首发评测

来源 :微型计算机 | 被引量 : 0次 | 上传用户:resumestd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  RTX 30系列产品综合概述
  RTX30系列首发产品有三款,也就是前文介绍的GeForceRTX3090、GeForceRTX3080和GeForceRTX3070。其中最先上市的是RTX3080,国内上市时间为9月17日,价格为5499元起。随后是RTX3090,上市时间为9月24日,国内定价11999元起。最晚上市的是RTX3070,上市时间是10月15日,国内定价仅为3899元起。从参数对比来看,RTX30系列最显著的变化便是换用了三星的8nm工艺,同时CUDA核心的数量大幅度增长,单精度计算性能、张量核心性能暴增。另外,RTX30系列的功耗也显著增加,顶级的RTX3090和高端的RTX3080在TDP功耗上均突破了300W,难怪NVIDIA建议玩家为RTX3090、RTX3080配备750W以上的电源。
  RTX30系列在工艺上采用的是三星的8nm工艺。和之前NVIDIA在顶级产品上偏爱台积电的工艺不同的是,Ampere显卡所使用的制程工艺的确有点出乎大众预料。三星8nm工艺在实际的工艺代次上是属于10nm工艺的改进版本,属于典型的半代工艺。其存在两个版本,分别是8nmLPP和8nmLPU。但是三星没有给出更多有关8nmLPU的数据,可能和三星之前宣布的高密度库有关。NVIDIA本次RTX30系列显卡,有可能选择的是三星8nm工艺的LPU版本,但是目前没有更多消息可供证明。
  在采用了三星8nm工艺后,相比上代同为面向图形的TU102核心,GA102核心的晶体管数量增加了大约50%,但是整体芯片面积却降低了17%。RTX30系列GPU所使用的8nm工艺的晶体管密度为4458万/mm2,之前RTX20系列使用12nmFFN工艺的晶体管密度为2467万/mm2,新工艺的晶体管密度是之前工艺的1.8倍。
  性能飞跃式增长,RTX30系列GPU架构解读
  RTX30系列GPU在架构上最大的变化是改用了全新的安培(Ampere)架构。有关安培架构的内容,本刊在之前的《来自540亿晶体管的力量—全新NVIDIA安培架构和A100GPU深入解读》一文中已经做出了比较详细的解读。不过,之前NVIDIA在发布A100GPU的时候,无论是GPU本身还是架构设计都更偏向于计算,在面向图形应用时,偏向计算的架构显然是无法适应图形计算的需求的,因此NVIDIA在同为安培架构、面向不同计算场合的芯片设计上,采用了针对性的改进。可以这样理解,目前我们看到的RTX30系列显卡,采用的是面向图形的安培架构,它和面向计算的安培架构有一定的相似之处,但是侧重点完全不同。
  GA102和GA104的宏观架构
  NVIDIA给出了完整版本GA102芯片的信息。根据这些内容显示,GA102芯片前端设计PCIe4.0总线控制器和常见的极线程分发器(GigaThreadEngine),数据通过这两个端口进入GPC中。GA102内部一共包含了7个GPC,每个GPC内部包含6個TPC,一共拥有42个TPC。每个TPC包含2个SM模块和一个PolyMorphEngine(几何处理引擎,用于曲面细分计算),也就是84个SM模块和42个PolyMorphEngine。在安培架构上,NVIDIA定义一个SM模块内拥有等效128个CUDA核心或者流处理器,那么完整版本的GA102就包含了等效10752个CUDA核心。显存控制器方面,GA102拥有12组显存控制器,每组32bit,组成了384bit的规格,后端还包括用于全局连接的高速Hub和4通道NVLink总线。
  值得注意的是,GA102内部还有168个FP64单元(每个SM内有2个),但是在宏观架构图中并未显示。FP64的计算性能是FP32单元的1/64。在这里加入少量FP64单元的目的主要是考虑到部分程序中有少量FP64计算任务,以及张量核心也有部分FP64数据需要计算。当然,相比A100GPU中庞大的FP64规模,这里的FP64单元仅仅是为满足基本计算需求而设定。
  继续向下深入探讨的话,安培核心的SM,除了包含等效128个CUDA核心外,还包含4个第三代Tensor Core张量核心、256KB的寄存器、4个纹理单元、1个第二代光线追踪核心以及128KB的L1/共享缓存。另外核心内部还为每个显存控制器配备了512KB的L2缓存,总计6144KB。
  再来看GA10 4。RT X 3070使用的芯片代号是GA10 4-300- A1,按照惯例,NVIDIA会使用GXXX- 400作为比较接近完整版芯片的产品代号。根据NVIDIA数据,GA104的完整版本有6个GPC、24个TCP和48个SM,等效6144个CUDA核心。GA104-300-A1则屏蔽了1个TPC,最终只包含了6个GPC、23个TCP和46个SM,以及等效5888个CUDA核心,所以RTX 3070SUPER或RTX 3070 Ti理论上应该是有空间的。
  总的来说,从宏观架构来看,安培架构和之前的图灵架构存在非常相似的地方,这也是NVIDIA使用多年的、GPC-TPC- SMCUDA核心四级层级的继承和发展。今天我们看到的面向图形的安培架构和面向计算的安培架构其差别之大甚至接近两代GPU的架构差异,虽然部分技术可能来源相同,但由于最终目标不同,因此两者的差异鲜明。
  SM模块解析
  SM(Streaming Multi- processer,流式多处理器模块)模块一直是NVIDIA GPU的计算核心。在之前面向计算的A100上,SM模块的基本配置情况是1个完整的SM模块包含了64个INT 32单元、64个FP32单元(也就是CUDA核心)以及32个FP64单元、4个第三代张量核心,分别针对传统的数据处理、双精度计算和AI计算三种任务。不过,在新的GA10X核心的安培架构上,由于计算任务的变化,和A100的SM模块相比,GA10X的SM模块也有了巨大的变化。   NVIDIA从RTX 20系列开始,就将图形计算部分划分为三个类型,那就是传统图形数据计算、光线追踪计算和AI计算。在图灵架构上,这三个部分使用的分别是图灵架构SM、第一代RTCore以及第二代Tensor Core,后两者都是NVIDIA的独家方案。在新的面向图形计算的安培架构中,这三个计算任务依旧被完整地保留了下来,并共同组成了全新的安培SM模块。
  面向图形的安培SM模块的基本配置和之前的图灵架构在宏观结构上是基本相同的。整个SM中都包含了4个计算单元,128KB的L1缓存和共享内存以及4个纹理单元、RT核心等。其主要变化发生在计算单元内部。
  在之前的图灵SM模块的单个计算单元配置上(4个SM计算单元组成一个SM模块),每个SM模块中的计算单元拥有1个warp调度单元和1个派遣单元,16384×32bit寄存器、16个FP32内核和16个INT32内核,2个张量核心以及后端的LD/ST单元、特殊功能单元(Special Function Unit,简称SFU)等。
  在新的GA10X安培SM的计算单元内部,依旧配置了1个warp调度单元和1个派遣单元、16384×32bit寄存器和后端LD/ST、SFU单元,但是在计算的部分却包含了1组16个可自由执行FP32和INT32计算的双功能计算单元(ALU)—它们既可以完成FP32计算,又可以完成INT32计算,另外还包含了1组16个FP32计算单元和1个新的第三代张量核心。
  由于SM设计的变化,因此安培架构相比图灵架构显示出巨大的功能性和性能导向差异。最典型的就是CUDA核心的数量方面,NVIDIA一直以来都将1个FP32单元作为1个CUDA核心来计数和宣传,但是在本次使用了INT32和FP32双功能设计、并额外增加了FP32单元后,可宣传的CUDA核心数量就大大增加了。比如同为4个SM计算单元组成的SM模块,GA10X安培架构拥有等效128个CUDA核心、面向计算的A1xx安培架构拥有64个CUDA核心,图灵架构也拥有64个CUDA核心,这也是NVIDIA宣传GA10X安培架构SM模块2倍于图灵架构的数字计量来源。
  但是,这并不意味着安培架构在FP32计算性能上随时都能保证达到图灵架构的2倍,毕竟安培架构的每个SM模块中只有64个“纯粹”的FP32单元,其余64个是双功能单元。这意味着当计算任务的数据格式以混合INT和FP格式占据这些单元时,安培架构的SM模块每周期所呈现的FP计算能力就会根据计算任务而变化,最极端情况下会降低至和图灵架构相同(假设INT32占据了所有64个双功能单元),或者呈现图灵架构的2倍(全部都是FP32计算)。
  考虑到目前复杂的图形计算任务,采用FP32 INT32混组核心的设计的优势是能够带来每晶体管性能的显著提升。毕竟计算任务并不会老老实实地按照设计规范出现。举例来说,一个计算任务中包含了20个INT計算和80个FP计算时,在图灵架构下,20个INT计算任务在1个时钟周期内就可以完成,但是80个FP计算就需要2个时钟周期才能完成。其中部分INT32核心在此时就会被闲置,每晶体管性能就会降低。换到安培架构,20个INT计算任务会分配20个双功能核心的INT32功能完成(剩余48个双功能核心),其余80个计算任务中的64个可以交给固定FP32核心,另外16个可以交给双功能核心的FP32功能完成。那么,1个时钟周期就可以完成所有的计算任务,效率自然能得到大幅度提升。
  总的来看,在计算任务全部都是FP32的情况下,新的安培架构的1个SM可以视同拥有128个FP32计算单元、4个第三代张量核心和1个RT核心。因此,NVIDIA特别提到,现代游戏工作负载具有广泛的处理需求,许多工作负载混合使用FP32算术指令(例如FFMA、浮点加法FADD、浮点乘法FMUL等),以及许多更简单的整数指令,例如用于寻址和获取数据算法,或者用于处理结果等。因此,在图灵架构上,NVIDIA增加了新的计算路径后,大幅度提升了这类算法的自由度和工作效能,从而带来了不错的性能优势。在安培架构上,这样的设计被强化了,浮点计算可以根据需求选择任何一组计算单元(计算路径),根据Shader指令和应用程序设计的不同,性能将有所变化,具体取决于指令的应用方式。比如光线追踪降噪计算全部都是FP指令,能够充分利用新的双功能计算单元和传统的FP32单元,显著提升性能。
  此外,在L1缓存部分,安培架构的SM L1共享缓存应用下的带宽相比图灵架构翻倍,安培架构的SM共享缓存带宽为每时钟周期128bytes,而图灵架构为每时钟周期64bytes。这样一来,RTX 3080的总L1带宽为219GB/s,RTX 2080 SUPER仅有116GB/s。
  在缓存方面,安培架构的SM缓存容量从之前的96KB提升到了128KB,容量增大了33%,这有助于存放更多的数据在L1缓存中,减少数据不断地从外部存储调用的频率,能提高性能并降低功耗。完整的GA102包含10752KB的L1缓存,对比TU102为6912KB。此外,NVIDIA还给出了L1和共享缓存的容量配置表,L1和共享缓存的可配置方案如下:
  128KB L1 0 KB共享内存
  120KB L1 8 KB共享内存
  112KB L1 16 KB共享内存
  96KB L1 32 KB共享内存
  64KB L1 64 KB共享内存
  28KB L1 100 KB共享内存
  NVIDIA特别提到,对于图形工作负载和异步计算,GA102将分配6 4KB L1数据纹理缓存(相比之下图灵架构仅能分配32KB)、48KB共享内存和16 KB保留用于各种图形管线操作。
  光线追踪模块   在之前的图灵架构上,NVIDIA引入了光线追踪模块(下简称为“RT模块”)。RT模块的主要作用是针对光线追踪计算中最耗费时间的加速边界体积层次(BVH)遍历和光线/三角形(基元)交叉测试(光线投射)过程进行加速,将整个光线追踪计算的时间降低至可接受的范围内。
  有关光线追踪计算的基本情况,我们在2018年的《生而为光—NVIDIA“图灵”架构解析》一文中有非常详细的介绍,因此本文仅作简单回顾性介绍,有需要的读者可以翻看之前的内容。
  光线追踪计算的过程,是通过图像平面中的每个像素从相机(观察者的眼睛)射出一条或者多条光线,然后测试光线是否和场景中的任何基元相交。由于光线和基元在场景中的碰撞检测非常重要,因此一种流行的算法就是使用基于树的加速结构,其中包含了多个分层排列的边界框,边界框包围或者围绕着不同数量的场景几何体,大的边界框可能包含了较小的边界框,较小的边界框内再包含实际的场景物体。这种分层排列的边界框被称为边界体积层次结构,或者BVH。BVH通常被列成具有多个级别的树形结构,每个级别都有一个或者多个节点,从顶层的单根节点开始,向下流入不同级别的多个后代节点。
  光线追踪计算更适合多指令多数据流形式的计算,因此需要专门的MIMD执行单元。此外,在硬件计算上最好也能够为其进行优化。在这种情况下,NVIDIA设计了专门的BVH遍历计算器以及三角形交叉测试单元,能够以极高的效率完成整个场景的光线追踪计算,这就是图灵核心上开始出现的RT模块中包含的RTCore。而在新的安培架构上,NVIDIA又对RT模块的性能进行了增强。面向图形的安培架构GPU加入了新的增强异步计算效能的功能,该功能允许在每个安培架构GPU的SM中同时处理光线追踪计算和图形计算,或光线追踪计算和数学计算工作负载。在这种情况下,安培架构的SM可以同时处理两个计算工作负载,并且不限于像以前的GPU那样只能同时进行数学计算和图形处理(光线追踪计算需要等待),从而使基于計算的降噪算法等方案可以与光线追踪计算可以同时运行,极大地提高了代码执行效能。
  除了上述性能提升外,NVIDIA在安培架构的光线追踪模块中还带来了比较重要的技术创新,那就是光线追踪动态模糊加速。动态模糊是一种非常流行且重要的计算机图形效果,可用于电影、游戏和许多不同类型的专业渲染应用程序中。动态模糊的本质和胶片摄影相关,因为胶片摄影时,图像不是立即创建的,而是通过将胶片在有限的时间段内曝光来创建的。这意味着目标物体在胶片快门时间内的高速移动将带来模糊的曝光效果。对GPU来说,要创建类似效果,必须模拟相机和胶片工作流程。动态模糊对于电影是非常重要的,它能够避免画面出现断续卡顿的效果,对游戏来说亦是如此。
  现代GPU动态模糊实现上有多种手段,这些技术既可以用于电影中的离线高质量渲染,也可以用于游戏等实时应用。高质量的模糊效果通常需要在某个时间间隔内渲染和混合多个帧,还需要后处理进一步改善结果,因此对算力要求极高。人们需要使用更为真实的模拟来实现动态模糊,比如光线追踪。在使用了光线追踪之后,动态模糊可以看起来更准确和逼真,而不会出现不需要的伪影,但是在GPU上渲染也可能需要很长时间,因此需要硬件加速来快速实现这个结果。
  目前有多种算法可以结合光线追踪实现动态模糊。一种流行的算法是将许多带有时间戳的光线随机发射到场景中。具有动态模糊功能的BVH会针对在一段时间内移动的几何图形返回光线的命中信息,该几何图形的采样点是光线相关的时间函数。然后将这些样本着色并合并以创建最终的模糊效果。NVIDIA自2017年推出OptiX 5.0以来,就已经能够支持这项技术。
  在动态模糊计算方面,之前的图灵架构可以很好地加速运动相机类型的运动模糊,它能够在一定时间间隔内将多束光线射入场景,光线追踪核心可以加速BVH遍历,执行光线和三角形相交测试并返回结果以创建模糊效果。但是,图灵架构在遇到BVH信息随对象移动而变化的情况下,就很难在给定的时间间隔内对移动的几何体执行运动模糊计算了。现在,新的安培架构的光线追踪核心通过加入新的加速功能,和经过修改的BVH配合使用,可以显着加速运动的几何形状的动态模糊计算。
  NVIDIA给出了2个对比图用于解释这个过程。首先来看单个光线的计算过程。在单光线的基础的光线追踪计算中,光线只是方向的函数,通过跟踪给定的目标体积边界,解决了三角形相交问题,从而能够输出光线的追踪采样值。在加入了动态模糊后,单个光线的计算将拥有2个变量,分别是方向和时间,同样是通过跟踪给定的目标体积边界,然后查找此时物体运动的时间,求解位置有关的时间函数f(time)后,得到物体在此时的位置,再解决三角形相交问题,最终再输出光线的追踪采样值。
  在实际的计算中,光线计算会以多方向的形式进行输出,在没有动态模糊的情况下,不同光线匹配不同的方向,通过和单光线计算一样的方式,输出多个结果,碰撞测试,返回结果,完成光线追踪采样。在加入了动态模糊后,每个入射光线将被分配一个时间戳,这样一来多光线、多方向和多个时间组成了复杂的计算阵列,此时需要同时计算物体在不同时间戳f(time)的位置后,再进行后续计算。比如图中橙色光线尝试在不同的时间点与橙色三角形相交,绿色和蓝色光线分别尝试与绿色和蓝色三角形相交,如果命中则报告位置和结果。根据NVIDIA的介绍,安培架构中加入的全新“Interpolate Triangle Position unit(内插三角形位置单元)”能够在BVH过程中,基于对象运动现有位置和动态方向插入新的三角形,以便光线可以在时间戳指定的时间内,在对象空间中的期望位置处与插入的三角形相交。这个新单元可以进行精确的光线追踪运动模糊渲染,其渲染速度比图灵架构的光线追踪单元快8倍。当然,最终的结果输出将采用滤波计算后的结果,结果是一个模糊的状态,正如图中显示的那样。   总的来说,为了完成动态模糊下的光线追踪计算,NVIDIA加入了有关位置和时间函数的计算,同时硬件部分还需要新加入有关时间位置计算的单元,最终在安培架构的光线追踪单元中,NVIDIA实现了BVH、边界框计算、位置(时间)计算、三角形相交、命中返回五个单元的协同工作,相比之前图灵架构的RT核心,新增了内插三角形位置单元,进一步提升了执行效率。
  Tensor Core张量核心
  NVIDIA在GPU上的一大创举就是引入了张量核心(TensorCore)。在之前的Volta架构中,张量核心的引入为AI计算带来了极高的效率,这是NVIDIA的第一代张量核心。图灵架构中,NVIDIA又对张量核心进行了微调,可以看作是第二代张量核心。目前在安培架构中启用的是第三代张量核心。在我们之前介绍NVIDIA A100 GPU的文章中,我们也详细介绍过第三代张量核心的优势。简要来说,第三代张量核心主要特点是支持了更多的数据格式,大幅度加强了在稀疏矩阵计算时的效能,比如在原始矩阵具有稀疏性时,第三代张量核心的速度可达到第一代伏特架构的20倍等。另外,新的第三代张量核心还加入了对BF16等数据格式的支持。
  但是,可能是考虑到应用场合和对专业显卡可能存在市场干扰等原因,NVIDIA在面向图形计算的GA10X安培架构中削弱了第三代张量核心的性能。NVIDIA的数据显示,GA100和GA102每个SM模块中都拥有4个张量核心,但是在FP16 FMA操作时,GA100在密集数据时计算速度为256、具有稀疏性的矩阵计算速度为512。GA102在这种情况下的性能只有A100的一半,分别是128和256。因此,整个SM计算FP16 FMA数据的速度在GA100上就是密集数据为1024、稀疏数据翻倍至2048,但在GA102上只有512和1024了。其中密集数据计算时,GA102的性能和TU102(TU102在任何情况下计算FP16 FMA都是512)是一样的,在这里,面向图形的安培架构还是展现出了优化过的对稀疏矩阵的计算优势,但是远远不如GA100这种专门面向计算的专业芯片。
  GDDR6X显存登场
  NVIDIA在显存应用方面是比较谨慎的,对HBM这类高性能、高价格的显存,往往不会使用在消费级显卡上。在消费级显卡上,NVIDIA更偏向于技术定制,之前的GDDR5X就是这样的产品。在新的面向图形计算的安培架构上,考虑到成本问题,NVIDIA自然也不会选择昂贵的HBM2,而是又拉上美光,研发定制了带宽堪比HBM2的GDDR6X存储颗粒。
  根据美光的官方描述,目前的GDDR6显存的一部分技术来源于GDDR5X,GDDR5X重要的改变在于通过加倍数据预取值,极大地缓解了高带宽下内部内存阵列的时钟频率的压力。比如GDDR5的预取值是8bit,GDDR5X可选16bit。在单次读取和传输的数据翻倍情况下,要达到相同的带宽,GDDR5X的运行频率只需要GDDR5的一半,这就为进一步提升GDDR5X的频率留下了充足的空间。相应地,GDDR6采用了同样的办法,将每pin的传输单元提升到了16Gb/s。不过,此时GDDR6又遇到了新的问题,虽然加倍预取值缓解了内存阵列的内部的频率压力,但是不断增加的芯片外部信号速度,带来了高速I/O和时钟频率方面的压力,整体带宽再度遇到瓶颈。
  在这种情况下,美光和NVIDIA合作提出了GDDR6X方案,其主要内容是采用pam4编码替代现有的pam2编码。这里的pam2和pam4一点也不难理解,如果熟悉NAND颗粒的读者应该知道SLC和MLC之间的差异。SLC只有2个电压状态,MLC有4个,所以可以一次传输更多数据。在这里,pam2一次正是传输1个数据,也就是我们常常看见厂商展示内存、显存时候的“眼图”,上下沿拉得越开表明数据传输越可靠稳定。pam4是一种全新的编码模式,它类似于MLC,拥有4个电压值,可以一次传递2位数据。换句话来说,当数据传输针脚工作在同样的频率下时,pam4传输到数据量是pam2的2倍,这样一来,GDDR6X在维持现有的数据传输速度下的时间窗口也就翻倍了,整個传输稳定性和可靠性都大幅度提升。
  目前,在RTX 3080上,搭配19Gb/s的GDDR6X颗粒和320bit显存位宽,RTX 3080的显存带宽达到了760GB/s,在RTX 3090上,如果以已知的384bit显存位宽、采用19.5Gb/s的GDDR6X颗粒来计算的话,RTX 3090的显存带宽将达到936GB/s,如果未来NVIDIA更新至21Gb/s的GDDR6X颗粒的话,那么显存带宽将达到1008GB/s,虽然相比A100 GPU的1555GB/s还是存在巨大差距,但是考虑到消费级显卡TB级别的带宽之前只有AMD采用HBM2显存的Vega能够达到,GDDR6X的潜力真的令人咋舌。
  RTX IO技术
  目前的游戏体积变得越来越大,内容除了游戏本体外,大部分都是需要显卡处理的高精度贴图,以及需要CPU处理的高清晰多声道音频文件等。在游戏数据文件变得越来越大后,微软和游戏厂商给出的解决方案是将游戏数据分段,只加载当前场景需要的内容,但是大量的随机和持续读写带来了CPU和IO部分更大的压力。另外,现有的数据通道流向也存在一定问题。在游戏数据读取时,CPU将数据通过PCIe控制器,从磁盘中通过数据读取、写入多个循环后,将解压缩数据写入系统主内存(Bounce Buffer)中,然后再将这些解压缩的数据,从系统主内存(B o u n c eBuffer)中经过PCIe控制器,最后交给GPU,进入GPU的显存。在这个过程中,CPU是数据调配的核心,PCIe控制器是数据中转核心,数据移动的方向是“磁盘—CPU—内存—CPU—GPU—显存”,绕了一个圈。除了系统架构的原因,另一个核心问题在于,CPU需要不断的控制数据传输流程并对数据进行解压缩处理。   为此,NVIDIA在RTX 30系显卡发布时提出了基于直接存储DirectStorage的RTX IO技术来解决磁盘数据读取的问题。“Direct”直接在哪里呢?这个技术的特点在于,将原本由CPU操作的数据解压缩交由GPU完成,数据在符合设定条件的前提下,可以经过CPU指令后,不再需要CPU解压缩和主内存中转,直接由GPU读取、解压缩并存放在GPU显存中。这样一来,系统中CPU的负荷就大幅度降低了,NVIDIA的数据显示这样的操作能够提高100倍数据吞吐能力、降低20倍CPU负载,并且整个数据解压缩时间也大幅度降低。更详细的例子显示,在条件下,24核心CPU搭配PCIe 4.0 接口的NVMe SSD,需要5秒钟完成的数据解压缩,在GPU上只需要1.5秒。如果是传统的HD硬盘,未压缩状态下需要60秒,压缩状态下需要36秒。
  目前NVIDI A采用的RT X IO技术要求用户使用NVMeSSD、最新的DirectX API以及RTX 30系列GPU,另外还需要游戏本身支持。现在RTX IO和DirectStorage的出现,给了GPU更多灵活的空间。数据都可以自主处理和使用了,未来发生更多的事情,也不是不可以进一步想象了,比如,NVIDIA RTXGPU ARM CPU?
  更好玩的RTX 30系
  在拥有了如此强大的硬件基础之后,NVIDIA还提出了一些全新的技术,其中一些专属于RTX 30系列,也有一些技术在比较老的RTX 20系列显卡上也可以实现。限于篇幅,在这里让我们先一起简单梳理一下,更详细的内容我们将在后续文章中逐一为大家详细解析。
  HDMI 2.1、8K HDR和AV1解码
  目前发布的RTX30系列显卡开始通过GeForceExperience软件支持8K分辨率、30Hz的视频捕捉,并且支持HDR效果。为了播放这类视频,RTX30系列显卡提供了HDMI2.1规格的输出接口支持。
  另外,RTX30系列显卡目前提供对AV1格式的解码支持,AV1是一种全新的、免费的、开放的和极高压缩率的视频编解码技术,如果播放8K视频并使用H.264编码模式的话,那么需要的带宽最起码是140Mbps,而AV1可将带宽需求降低至少一半,不过AV1的问题在于解码算法压力较大,CPU可能很难负荷。RTX30系列GPU支持AV1格式硬解码,配合相应的软件,能够实现最高8KHDR60Hz的视频解码,并大幅度降低CPU占用率。
  RTX 30系列的AV1解码包含下列内容:
  ●支持AV1的0级别配置方案,支持单色或4:2:0格式,支持8/10bit解码
  ●最高支持6.0级(不包括大型图块)
  ●支持的最大分辨率为8192×8192,支持的最小分辨率为128×128。
  ●支持直方图收集,胶片颗粒合成和子样本图(SSM)。
  ●提供最大8K、60Hz硬件解码
  ●支持的路径包括DX9,DX11和DX128K DLSS
  DLSS我们都很熟悉了,不必多说。目前在RTX30系列上有关DLSS的升级最令人瞩目的是DLSS可以支持到8K分辨率了。NVIDIA的数据显示8K分辨率的DLSS画面的原始分辨率仅为2K,通过9倍的AI分辨率增强(DLSS9X),最终可以输出8K的画面。令人惊喜的是,DLSS8K的性能表现和原生8K分辨率相比,在某些场景下帧率甚至高了数倍,然而两者画质是基本相当的。
  RTXGI
  除了玩家们喜闻乐见的DLSS外,NVIDIA还推出了全新的实时全局光线追踪照明技术,全称是RealTimeRayTraceGlobalIllumination,简称RTXGI。这项技术是建立在DirectX的光线追踪API和采用实时光线追踪游戏之间的一个中间层,主要目的是降低开发者难度。开发者不用深入了解RTX系列显卡的优势和DirectXAPI的细节,只要会使用RTXGI就可以开发、使用光线追踪特性。
  Broadcast
  第三个值得一提的技术是NVIDIA利用AI加速,在视频直播方面的改进。目前NVIDIA在视频直播方面推出了利用GPU张量核心辅助完成的语音降噪功能并得到了好评。现在NVIDIA推出了名为Broadcast的一整套视频直播解决方案,包括语音降噪、自动去背景和自动识别人脸等。这些功能的推出,使得很多用户能够更为自由地在任何环境中进行直播。
  Reflex
  第四则是面对电子竞技的优化技术。对电竞选手而言,更低的延迟和更快速的画面显示是非常重要的,NVIDIA的数据显示电竞选手在120ms以内就能给出反应,要求系统延迟低于12ms,普通玩家这两个数据为150ms和45ms。NVIDIA在这方面做出了一些研究,包括不同画面延迟下的画面显示情况、射击分布区域、目标精度等。最终结果显示,更低的延迟会带来更好的设计效果,比如以60FPS、100ms为基准,考察延迟在120FPS的54.7ms、240FPS的34.5ms以及360FPS的20ms时的情况,发现在这三种情况下,枪械射击命中概率分别提升28%、33%和37%,并且延迟越低,射擊命中时间越短。
  鉴于此,NVIDIA提出了名为Reflex的一整套解决方案,希望能够为电竞玩家和一些专业用户提供最低延迟的解决方案,其中的核心技术是通过降低CPU压力、减少渲染队列数据、提高GPU频率来实现更低的延迟。
  NVIDIA还给出了数据对比在Reflex开启的情况下,能够提供的最低延迟时间,比如游戏《命运2》,开启和关闭Reflex技术的延迟分别是50和75,《堡垒之夜》这两个数据分别是35和53,可见Reflex在游戏延迟降低方面的优势。另外,在游戏设置方面,目前很多电竞玩家都希望将游戏设置为最低画质从而降低CPU压力来获取低延迟,但是这样做同时会导致画质降低,整体游戏性得到了损害。Reflex技术可以在不降低画质的情况下,尽可能降低游戏延迟,提高了画面效果和游戏性。
  除了上述内容外,为了提供更好的电竞环境,NVIDIA还联合华硕、宏碁、罗技、微星、戴尔外星人等厂商,推出了低延迟的鼠标和显示器等,其中显示器的最高刷新率可达360Hz,配合G- SYNC、DLSS和Reflex等技术,能够为玩家带来最为出色的游戏效果。
  跨时代,未来两年看安培
  看完对NVIDIA Ampere架构及核心的完全解析,相信很多玩家会和我们一样有这样的想法:游戏显卡市场又将迎来新一轮革新浪潮!是的,如果说革命性的第一代RTX显卡—图灵,引导了PC游戏的“光追 144fps新视界”以及RTX Studio创意创作革命,那么作为第二代RTX显卡出现的安培,必然会借着更强悍的性能和更优秀的光追游戏体验,彻底铺开PC游戏的光追道路,并加速RTX Studio的普及。如果说图灵显卡普及了1080p@144fps的电竞新标准,那么我们更希望安培显卡能够带来4K@60fps取代1080p@60fps游戏的新成果,从而推动PC游戏走向全新的体验。
  而从目前NVIDIA发布的三款安培核心显卡来看,无论是性能还是价格,它们都毫无疑问地占据了各自市场定位的制高点,新一代的显卡战争又是NVIDIA走在了最前面。未来的两年,我们认为安培应该也会像图灵一样,成为市场的标杆和领航者,将PC游戏与创意创作行业,带到一个全新的高度。拭目以待!
其他文献
测试手记:和高端的FX 8150一样,FX 4100处理器的超频能力也相当出色。功耗和温度控制能力更是比前者好了太多。刚刚关机,立马拆下处理器,触摸其表面温度几乎和室温相当。此外,FX 4100对AVX、XOP和AES等新指令集支持良好。其中AES指令让它在面对密码学计算应用时,能为你带来约10倍于其他同价位平台的超强性能。  我们在测试FX 8150的时候,就知道AMD的“推土机”不止有4模块8
随着物质生活的不断丰富,游戏玩家对于外设的追求也越来越高。特别是在FPS游戏火热的当下,以往那些单纯的多声道、RGB背光游戏耳机已然不能满足部分高端玩家的需求,外观设计不过于浮夸、调音足够优秀并且具备无线连接功能的游戏耳机逐渐成为了他们的心头好。而ROG风行GO电竞耳机恰好具备以上这些特性,并且它还首创USB-C接口无线收发器,采用Al降噪麦克风,希望凭借这些设计来吸引更多的高端玩家。   由繁至
转眼就进入5月了。在这半个月里,很多打算装机的DIY爱好者内心情绪如坐过山车般波动,饱受煎熬。原本,传闻英伟达正式停产了旧款使用GA106-300GPU核心的RTX3060显卡,后续将会用新版本使用GA106-302GPU核心的RTX3060显卡作为替代。GA106-302GPU核心的算力减半,但不影响游戏性能。这对于苦寺J赞机时机,饱受局价显卡則熬的PCI兀豕来说,确实是振奋人心的消息。盼望着,
课余时间枯燥乏味,宅在寝室百无聊赖,这让不少“学生党”都想起在新的一年添置一台电竞主机,来十高自己的校园生活。不满足于入门级硬件的赢弱性能,却又奈何装机预算缺口较大,纠结于此的一些“学生党”们就只有把关注的目光集中到了闲鱼、转转这类线上二手交易平台上。诚然,在闲鱼、转转上购买二手PC硬件可以节约资金, 但这类线上二手交易平台上也充斥着不少假冒、伪劣、翻新产品,其中的套路令人防不胜防,那么对于那 P
目前投影机大致可以分为两类,一类是普通家用型,这一类新兴品牌较多,像极米、坚果、米家等都是具有代表性的品牌,当然,像明基、宏碁等这类传统品牌也有涉足;另一类是商教型,这类产品主要是传统品牌居多,主要有明基、宏碁、奥图码、爱普生、索尼等。以往,我们体验得较多的是个人消费类的家用投影机,本期我们将给读者们换个“口味”,带来了一款主打商用的投影机—理光PJ YU4000。   外观设计常规,接口丰富  
深度学习(Deep Learning)是一个革命性的研究方式,它将改变数据分析行业的游戏规则。  2015年3月18日,一年一度的GTC大会(GPU TechnologyConfenence)在美国加利福尼亚州圣何塞举行。这已经是英伟达(NVIDIA)举办的第六届GTC大会,在本次会议上,一个普通大众不太熟悉的名词被不断提起,它就是深度学习(Deep Leaming)。什么是深度学习?它将带来怎样
2017年9月,笔者组装了一台入门级游戏主机,选购的是一款DDR4 2400 16GB双通道内存,当时电商平台的售价是1299元。相信很多朋友看到这个价格都会觉得太贵,毕竟换作现在,这个价格还可以再买一对相同的内存。时常关注内存价格走势的朋友应该知道,内存价格在2019年一路走低,目前电商平台上的内存价格已经比2017年9月低太多,所以现在组装电脑的确非常划算。那么市售的DDR4内存怎么选,哪些内
更具活力气息的设计  正如其名,OPPO智能手环活力版里的“活力”二字主要体现在手环的设计中。外观方面,OPPO智能手环活力版新增了“蓝色风暴”和“橘色热浪”两种颜色的腕带,腕带采用的是撞色设计,其内侧为黑色,遇到汗渍会更耐脏。  腕带为TPU亲肤材质,它的表面采用了凹槽设计,能起到透气作用。腕带的可调长度在125mm~200mm之间,腕带宽度为15mm。以往我体验过某手环,在长时间使用后腕带与手
2020年的春节比以往更长一些,受到新冠肺炎疫情的影响,眼下各地中小学延期开学,学生需要在家学习,工作党在家办公也成为了常态。当在线学习、在家办公成为目前的生活方式时,可能很多人又会遇到不少问题,比如“家里老电脑跑不动,视频会议总是卡”“孩子学习需要电脑,股市行情又反反复复,家里电脑不够用”等。可以说在家办公、在线学习带动了笔记本电脑的需求,不过很多家长朋友们可能就要问了:“我们购买笔记本电脑的时
调整尺寸及用料  自从初代炼狱蝰蛇采用经典的右手人体工学搭配从左至右由上到下的幅度变化设计之后,便受到了无数玩家的青睐,Razer也因此名声大噪。如今,全新的Razer炼狱蝰蛇V2迷你版游戏鼠标在此基础之上改良了尺寸,将其缩小至65.4mm×56mm×38.5mm,非常贴合亚洲人的手部大小,在搭配64g的重量之后,让它非常便于抓握使用。配色方面,Razer炼狱蝰蛇V2迷你版游戏鼠标仍然以黑色为主,