论文部分内容阅读
CPU:Tiger Lake面世
TigerLake是英特尔转入10nm后最重要的产品,它使用的是10nmSuperFin制程工艺,无论是频率还是性能表现都足以令人满意。在架构方面,TigerLake使用的WillowCoveCPU架构和XeGPU架构都进行了大幅度改进,带来了革命性的技术和效能表现。
英特尔认为TigerLake拥有六大方面的优势:CPU部分,TigerLake换用了全新的WillowCove架构,拥有比前代产品更出色的性能;GPU部分,由于全新Xe架构的引入,TigerLake带来了“颠覆性”的集成图形核心性能;AI方面,TigerLake继承了全新的高斯网络加速器GNA2.0;集群方面,增强的内存性能和互联带宽带来了出色的集群性能;能耗比方面,借助于新的工艺和架构,英特尔宣称TigerLake拥有同等规模SoC芯片中最佳的表现;安全性能方面则是一贯地拥有英特尔整套安全技术支持。除此之外,TigerLake还带来其他的一些重要功能,比如首次支持PCIe4.0、首次支持LPDDR5、首次支持USB4、Thunderbolt4、集成4个显示通道,支持4K/60fps10bit、8K/30fps10bit视频输出等功能。
频率逼近5GHz,架构升级
和之前设计IceLake时一样,英特尔在TigerLake的设计上也面临两种选择,一种是更好的单线程性能或者IPC性能,另一种是更好的能效比。在TigerLake上,英特尔选择了后者,这意味着TigerLake在任何给定的功率和电压下,相比前代产品频率更高;在任何给定的频率下,相比前代产品功耗更低或者电压更低。在之前泄露的一些消息中,采用了10nmSuperFin工艺的TigerLake处理器频率甚至能飙升至4.8GHz以上,着实令人惊讶。
在CPU核心架构方面,TigerLake引入全新的WillowCove核心架构设计。从表面来看的话,WillowCove架构和之前的SunnyCove基本是相同的,但是英特尔给出了三个重要的差异,正是这些差异带来WillowCove相比SunnyCove大约10%~20%的性能提升。
首先是频率的差异。在相同的峰值电压下,WillowCove比SunnyCove的频率高大约500MHz;在相同的频率下,WillowCove所需的电压比SunnyCove要低了不少。最终WillowCove呈现的频率远远超越了SunnyCove的4.0GHz,能够接近5GHz,和现在的14nm 几乎位于一个水平。
其次则是缓存的差异。WillowCove的缓存结构进行了重新设计,以前在SunnyCove上所使用的包含式512KB8路L2缓存变成了现在的非包含式1.25MB20路高速缓存。传统计算中,缓存容量的增加会降低未命中率,2.5倍的缓存容量对应着约58%的未命中率降低。另外,较大的缓存会带来较长的访问延迟,因此WillowCove的L2缓存可能会慢一些。
除了容量外,包含式缓存和非包含式缓存也是重要的变化。在2010年英特尔就给出过构建非包含式缓存如何以包含式缓存相同的速率运行的方法。之前英特尔使用的都是包含式缓存,这意味著L2缓存中存在L1缓存的复制内容。非包含式缓存则不含有其他缓存的内容,采用额外的硬件保证缓存一致性,并且非包含式缓存不需要后退验证,因此性能也会高很多。
L3缓存方面,WillowCove采用的是12MB非包含式共享缓存设计,前代产品采用的则是8MB包含式共享设计。在这里可以看到,新的缓存方案容量增加了50%,但是英特尔也降低了缓存关联性,从之前的16路变成12路,最终整体性能可能相差不大。
双环形总线,内存改进
TigerLake的内部Fabric总线的带宽相比上代增加了一倍,在内部总线设计上采用了双环路总线架构,这个架构的总线允许任何方向每周期2×32Bit的数据传输,有助于为内存控制器、图形、CPU核心提供充足的数据传输带宽。英特尔也是首次在消费级产品中采用双环路总线设计。相比将单环路宽度加宽的设计,双环中的一个环能根据需求进入休眠状态以节省功耗。
内存方面,TigerLake目前支持最高64GBDDR43200或者32GBLPDDR4X4266,带宽可以达到51.2GB/s或者62.8GB/s。此外,TigerLake还加入对LPDDR55400的支持,最高支持32GB,带宽增加到了86.4GB/s。
不过由于LPDDR5成本较高,可能短期内都不会有厂商使用这样的内存来搭配TigerLake。
TigerLake集成了全新的高斯神经网络加速器也就是GNA2.0,可以视作英特尔版本的“NPU”。GNA2.0是高效率、低功耗专用神经网络计算单元,可以用于动态神经网络降噪。在GNA2.0加速的情况下,CPU可以降低20%的占用率。GNA2.0和之前的GNA一样,都建立在高斯混合模型的基础上,可以用于加速微软Cortana的语音识别。英特尔数据显示,GNA2.0可以在1毫瓦时执行1GigaOP,并且可以在38毫瓦时线性扩展至38GigaOP。
新一代显示模块,支持PCIe4.0
TigerLake使用了新一代显示模块,用来加强高分辨率显示设备的使用体验。新的显示模块直接挂接在Fabic总线上,有专用的通讯渠道和内存连接,总带宽高达64GB/s,能够实现显示数据的快速传输和显示输出。TigerLake现在拥有4个4K显示管道,分别对应DP1.4、HDMI2.0、Thunderbolt4和USB4Type-C,由于这些显示都采用独立的管道,因此可以同时使用。该显示模块还支持HDR10、12位BT2020色彩、自适应同步,并支持高达360Hz的显示器,整体设计相当全面。 在视频编解码方面,TigerLake使用的是IPU6,这一代视频编解码模块做出了很多功能上的加强。其图形计算完全使用硬件单元实现,不再占用CPU和其他部分进行软处理。整个内部布置了拥有6个传感器的全新架构,可以实现4K/90Hz的画面输出,或者高达4200万像素的静态图像输出。整体表现比上代产品大大加强。
I/O方面,TigerLake加入了USB4和Thunderbolt4接口,两个端口最高可提供40Gb/s的带宽,接口形式采用的USB-C,并且能使用USB-C输出视频。另外,TigerLake开始支持PCIe4.0(目前并未说明有多少个PCIe4.0通道),英特尔宣称升级到了PCIe4.0后,功耗并没有额外增加。英特尔升级PCIe4.0的原因主要是寄希望于PCIe4.0存储,不过目前PCIe4.0的NVMeSSD的功耗都比较高,因此可能还需要等待一段时间才能看到它们出现在笔记本电脑中。
电源和频率电压控制
移动处理器最重要的驱动程序之一是空闲和睡眠电源计划,比如在不使用的时候,可以将芯片的更多部分置于低功耗状态,延长电池待机时间。近年来,随着处理器转向具有更多晶体管数量的密集工艺节点,越来越多的晶体管被用于创建单独的功率和频域,这些设置和管理可以更为精细化地控制处理器的电源。在这种精细化控制中,需要应用逻辑来管理各类不同的电源域,并且需要对其进行针对性的设计,以便在用户需要使用这些电源域控制的功能模块时能够快速唤醒,而不会出现明显的延迟。
鉴于此,每一代新的移动处理器中都会不断推出新功能,更好地控制不同计算和互连模块的能耗情况。对于TigerLake,英特尔带来了新的自主动态电压/频率缩放(DVFS)算法,用于控制在不同负载下的电压和频率值,带来更好的电源效率。一般来说,这些设置都是在SoC级别的其他电源优化之上完成的,层级很高并能够有效控制全局设备的工作情况,比如为CPU内核提供更好的时钟门控,为各类控制器和功能模块提供更好的电压控制效率等。在TigerLake上,这类电源控制域甚至包含PCIe、USB和热传感器。不仅如此,当组件需要进入睡眠状态时,如果其中包含的重要数据经常需要在还原时“保存”
在某个地方的话,也可以借助新的控制功能完成存储和还原,能够充分确保数据安全和操作流畅。
Tiger Lake的产品和型号
目前英特尔已发售9款TigerLake处理器,英特尔将其全部归入第十一代酷睿系列移动处理器,产品型号上也注入了“11”的数字用作区分。首次发布的TigerLake处理器包含了i7、i5和i3三个档次,只有低功耗版本,最多4个物理核心,高性能版本和更多核心版本将在后期陆续发布。
Corei7方面,英特尔发布了Corei7-1185G7、Corei7-1165G7和Corei7-1160G7三款,都是四核心八线程处理器、集成Xe显卡,拥有96个EU,缓存都是12MB。Corei7-1185G7和Corei7-1165G7产品的差别在于前者的CPU基准、最大单核心睿频、全核睿频和GPU频率分别是3.0GHz、4.8GHz、4.3GHz和1.3GHz,而后者只有2.8GHz、4.7GHz、4.1GHz和1.3GHz。内存方面都支持DDR43200或者LPDDR4x4266。受制于功耗,Corei7-1160G7四個频率数值分别为1.2GHz、4.4GHz、3.6GHz和1.1GHz,内存方面也仅支持LPDDR4x4266。
在Corei5和Corei3上,英特尔推出了2款i5系列和4款i3系列产品。其中i5系列也是4核心8线程配置,配置了8MB缓存,集成显卡虽然型号为“G7”,但实际上只有80个EU单元;现在发售的2款i3产品仅为2核心4线程配置,配备6MB缓存,搭配G4级别配置48个EU单元的集成显卡。2021年,英特尔还将推出2款4核心8线程的i3处理器,配备8MB缓存。
值得一提的是,英特尔取消了TigerLake具体的TDP值设定,只给出了一个可配置功耗的范围,厂商可以根据产品需要和性能、产品定位等,自行配置处理器的功耗情况。其中,处理器型号以“5“结尾的版本,功耗配置为12W~28W,处理器型号以“0”结尾的版本,功耗配置为7W~15W。
CPU路线图更新
在TigerLake处理器介绍完成后,英特尔还特别带来了处理器路线图的更新。现在,英特尔在CPU方面的路线图分为三个序列。
英特尔处理器的第一个产品序列是“COVES”—TigerLake使用的是“WillowCove”,下一代则是“GoldenCove”。GoldenCove架构将进一步提升单核心性能和AI性能,上市时间应该在2021年。第二个产品序列是新加入的Hybrid系列。目前这个系列仅有LakeField一款产品。作为首个x86混合架构处理器,LakeField在硬件方面的能耗比最多提升了24%,待机电源功耗最多降低了91%,配合操作系统的优化还带来了高达33%的Web性能提升和17%的能耗比提升。在LakeField之后,英特尔下一个混合架构的产品代号将是“AlderLake”,上市时间应该也是2021年左右。第三个产品序列是传统的以超低功耗为主的Atom系列,目前的核心代号为TreMont,2021年会推出新一代名为GraceMont的新核心。
GPU:Xe开启新“视”代
在TigerLake上,英特尔正式启用Xe架构的GPU。Xe架构主要分为XeHPC、XeHP、XeHPG和XeLP四个产品阵列,覆盖了E级超算、数据中心\AI计算、企业、普通用户一直到入门级用户,整体性能范围极为宽泛。目前英特尔在TigerLake上使用的是XeLP,此外还有即将推出的SG1、DG1两款独立显卡,都将采用英特尔10nmSuperFin工艺制造,属于面向入门级用户和集成用户的产品。英特尔还明确了XeHPG这款面向游戏玩家的显卡,表示其拥有出色的图形性能、面向游戏的优化以及硬件光线追踪等特性。 全新架构的硬件基础
英特尔展示了Xe架构在移动设备上的优势,包括更高的浮点性能、更好的每浮点性能(Perf/Flop)、更低的每浮点功耗(Power/Flop)。在这里,英特尔使用了之前IceLake中集成的Gen11图形系统作为基准,宣称XeLP架构中单个计算模块包含96个EU单元,规模是之前产品的1.5倍,能够在每时钟周期计算1536Flops、48个纹理操作和24个像素操作。
在之前的Gen11图形架构中,每个EU单元都由2组、每组4个ALU组成,其中一组用于FP/INT计算,另外一组用于FP和扩展数学计算(EM),每个EU单元设有独立的线程控制器用于分派各类计算任务,其结构模式为“4 4 1”。在XeLP上,英特尔采用接近“8 2 0.5”的设计模式,每个EU单元内部目前有10个ALU。其中8个支持FP和INT计算,在面对INT16格式的INT计算时性能会翻倍,其余的2个ALU则支持FP和扩展数学计算(EM)。2个EU单元共享一个高效率线程控制器,降低了线程控制器占用面积的同时提高了效能。
在存储架构方面,XeLP加入了新的L1数据缓存并将L3缓存的容量升级到了16MB,整个计算模块的数据存取效率得到了提升。在内存接口方面,XeLP的内存接口增加了一倍,支持每时钟周期2×64B的读写,大大提高了数据带宽。在AI计算方面,新的EU单元能够执行更多操作,包括支持FP32、FP16、INT16以及INT8。其中INT8的计算性能是FP32的4倍,这个性能是通过DP4A指令,使用FP32单元完成的。DP4A指令目前在AI加速的GPU上使用已经有一段时间了,英特尔的做法算是进行了功能补完。
由于架构的变化和工艺的更新,新的XeLP相比之前的Gen11图形系统拥有显著的性能、频率、功耗和效能优势。比如在相同的电压下,之前的Gen11的图形核心只能达到1100MHz,而TigerLake中集成的XeLP能够运行在1650MHz上,相比Gen11的頻率大约增加了50%。不仅如此,实际上由于功耗控制的改进,TigerLake中的XeLP运行频率大约在1800MHz左右,这样其性能相比IceLake的Gen11架构大约是2.45倍,不过在英特尔的宣传中这个数据是2倍,即使如此也已经相当惊人了。
除了架构上的大幅度改进,XeLP还在媒体和显示部分予以加强。XeLP支持AV1硬件解码,并让其他编解码模块的吞吐量直接翻倍,这意味着它在60Hz刷新率下支持最大4K或8K视频的播放。
在外部显示方面,XeLP支持4个4K显示管道同时输出画面,将带来更大的分辨率或更多显示器支持、更多的色彩(支持12bitBT2020、HDR10)和更低的功耗。
全面优化的软件支持
之前英特尔数次希望介入GPU市场最终都铩羽而归,主要原因除了硬件架构设计存在问题外,还有软件支持方面的问题。
本次英特尔在XeGPU研发的开始就同步优化驱动和软件支持,聚焦于集成显卡、桌面显卡和HPC三大类型,软件支持包括3D、媒体、显示和计算四大模块,要求稳定、快速、高性能和对Day0级别事件的控制等。英特尔认为,他们需要通过驱动程序去推进效率,从程序端和用户端双管齐下,完成程序端的应用程序层、3DRuntime层和OS层,以及用户端的控制面板层和图形编译器层的协同发展,每个环节都有专门优化和控制,力求出色。
具体到更细节的内容上,Xe的编译器将会带来软硬件调度的协同性设计、支持AI优化,同时还在软件评分方面有所改进。另外Xe还带来了新的DirectX11驱动,这个驱动并没有使用之前英特尔在Gen11图形核心上的内容,而是全部从零开始构建,其目标是瞄准降低计算负荷而来,具体的技术包括减少GPU流水线停机的次数、降低API延迟、对本地内存进行优化等。除此之外,Xe在软件和驱动层面还增加了有关自适应GPU优化、可变比率阴影(VariableRateShading)、即时游戏调优、游戏画面锐化等功能。在用户界面方面,IntelGraphicsCommandCenter(英特尔图形控制中心,简称IGCC)也做出了大幅度改进,用户操作更直观、方便,快捷键应用更轻松,并且可以直接连接Twitch和Youtube进行流媒体视频直播。
在工艺制程以及CPU、GPU之后,英特尔介绍了有关存储、互联、安全和AI方面的内容。英特尔宣称已经开发出第四代3DNAND产品,堆叠层数为144层,其数据存储密度相对于上代产品提升了50%;将第二代3DXPoint层数提高至4层,相关傲腾SSD产品的IOPS数据达到了数百万级别。
写在最后
从2015年到现在,英特尔很久都没有给人们带来一个这样兴奋和值得称赞的技术盛会了。这一次,英特尔似乎是感到了危机的逼近,终于全面爆发,展示了自己创新研发的大量新技术、新工艺和新产品,不但给用户带来更多的性能、更多的功能和创新的体验,还在向市场昭示着昔日霸主的回归。接下来,英特尔需要做的就是将这所有的规划和路线图一一落实,重新回归昔日的荣光。
TigerLake是英特尔转入10nm后最重要的产品,它使用的是10nmSuperFin制程工艺,无论是频率还是性能表现都足以令人满意。在架构方面,TigerLake使用的WillowCoveCPU架构和XeGPU架构都进行了大幅度改进,带来了革命性的技术和效能表现。
英特尔认为TigerLake拥有六大方面的优势:CPU部分,TigerLake换用了全新的WillowCove架构,拥有比前代产品更出色的性能;GPU部分,由于全新Xe架构的引入,TigerLake带来了“颠覆性”的集成图形核心性能;AI方面,TigerLake继承了全新的高斯网络加速器GNA2.0;集群方面,增强的内存性能和互联带宽带来了出色的集群性能;能耗比方面,借助于新的工艺和架构,英特尔宣称TigerLake拥有同等规模SoC芯片中最佳的表现;安全性能方面则是一贯地拥有英特尔整套安全技术支持。除此之外,TigerLake还带来其他的一些重要功能,比如首次支持PCIe4.0、首次支持LPDDR5、首次支持USB4、Thunderbolt4、集成4个显示通道,支持4K/60fps10bit、8K/30fps10bit视频输出等功能。
频率逼近5GHz,架构升级
和之前设计IceLake时一样,英特尔在TigerLake的设计上也面临两种选择,一种是更好的单线程性能或者IPC性能,另一种是更好的能效比。在TigerLake上,英特尔选择了后者,这意味着TigerLake在任何给定的功率和电压下,相比前代产品频率更高;在任何给定的频率下,相比前代产品功耗更低或者电压更低。在之前泄露的一些消息中,采用了10nmSuperFin工艺的TigerLake处理器频率甚至能飙升至4.8GHz以上,着实令人惊讶。
在CPU核心架构方面,TigerLake引入全新的WillowCove核心架构设计。从表面来看的话,WillowCove架构和之前的SunnyCove基本是相同的,但是英特尔给出了三个重要的差异,正是这些差异带来WillowCove相比SunnyCove大约10%~20%的性能提升。
首先是频率的差异。在相同的峰值电压下,WillowCove比SunnyCove的频率高大约500MHz;在相同的频率下,WillowCove所需的电压比SunnyCove要低了不少。最终WillowCove呈现的频率远远超越了SunnyCove的4.0GHz,能够接近5GHz,和现在的14nm 几乎位于一个水平。
其次则是缓存的差异。WillowCove的缓存结构进行了重新设计,以前在SunnyCove上所使用的包含式512KB8路L2缓存变成了现在的非包含式1.25MB20路高速缓存。传统计算中,缓存容量的增加会降低未命中率,2.5倍的缓存容量对应着约58%的未命中率降低。另外,较大的缓存会带来较长的访问延迟,因此WillowCove的L2缓存可能会慢一些。
除了容量外,包含式缓存和非包含式缓存也是重要的变化。在2010年英特尔就给出过构建非包含式缓存如何以包含式缓存相同的速率运行的方法。之前英特尔使用的都是包含式缓存,这意味著L2缓存中存在L1缓存的复制内容。非包含式缓存则不含有其他缓存的内容,采用额外的硬件保证缓存一致性,并且非包含式缓存不需要后退验证,因此性能也会高很多。
L3缓存方面,WillowCove采用的是12MB非包含式共享缓存设计,前代产品采用的则是8MB包含式共享设计。在这里可以看到,新的缓存方案容量增加了50%,但是英特尔也降低了缓存关联性,从之前的16路变成12路,最终整体性能可能相差不大。
双环形总线,内存改进
TigerLake的内部Fabric总线的带宽相比上代增加了一倍,在内部总线设计上采用了双环路总线架构,这个架构的总线允许任何方向每周期2×32Bit的数据传输,有助于为内存控制器、图形、CPU核心提供充足的数据传输带宽。英特尔也是首次在消费级产品中采用双环路总线设计。相比将单环路宽度加宽的设计,双环中的一个环能根据需求进入休眠状态以节省功耗。
内存方面,TigerLake目前支持最高64GBDDR43200或者32GBLPDDR4X4266,带宽可以达到51.2GB/s或者62.8GB/s。此外,TigerLake还加入对LPDDR55400的支持,最高支持32GB,带宽增加到了86.4GB/s。
不过由于LPDDR5成本较高,可能短期内都不会有厂商使用这样的内存来搭配TigerLake。
TigerLake集成了全新的高斯神经网络加速器也就是GNA2.0,可以视作英特尔版本的“NPU”。GNA2.0是高效率、低功耗专用神经网络计算单元,可以用于动态神经网络降噪。在GNA2.0加速的情况下,CPU可以降低20%的占用率。GNA2.0和之前的GNA一样,都建立在高斯混合模型的基础上,可以用于加速微软Cortana的语音识别。英特尔数据显示,GNA2.0可以在1毫瓦时执行1GigaOP,并且可以在38毫瓦时线性扩展至38GigaOP。
新一代显示模块,支持PCIe4.0
TigerLake使用了新一代显示模块,用来加强高分辨率显示设备的使用体验。新的显示模块直接挂接在Fabic总线上,有专用的通讯渠道和内存连接,总带宽高达64GB/s,能够实现显示数据的快速传输和显示输出。TigerLake现在拥有4个4K显示管道,分别对应DP1.4、HDMI2.0、Thunderbolt4和USB4Type-C,由于这些显示都采用独立的管道,因此可以同时使用。该显示模块还支持HDR10、12位BT2020色彩、自适应同步,并支持高达360Hz的显示器,整体设计相当全面。 在视频编解码方面,TigerLake使用的是IPU6,这一代视频编解码模块做出了很多功能上的加强。其图形计算完全使用硬件单元实现,不再占用CPU和其他部分进行软处理。整个内部布置了拥有6个传感器的全新架构,可以实现4K/90Hz的画面输出,或者高达4200万像素的静态图像输出。整体表现比上代产品大大加强。
I/O方面,TigerLake加入了USB4和Thunderbolt4接口,两个端口最高可提供40Gb/s的带宽,接口形式采用的USB-C,并且能使用USB-C输出视频。另外,TigerLake开始支持PCIe4.0(目前并未说明有多少个PCIe4.0通道),英特尔宣称升级到了PCIe4.0后,功耗并没有额外增加。英特尔升级PCIe4.0的原因主要是寄希望于PCIe4.0存储,不过目前PCIe4.0的NVMeSSD的功耗都比较高,因此可能还需要等待一段时间才能看到它们出现在笔记本电脑中。
电源和频率电压控制
移动处理器最重要的驱动程序之一是空闲和睡眠电源计划,比如在不使用的时候,可以将芯片的更多部分置于低功耗状态,延长电池待机时间。近年来,随着处理器转向具有更多晶体管数量的密集工艺节点,越来越多的晶体管被用于创建单独的功率和频域,这些设置和管理可以更为精细化地控制处理器的电源。在这种精细化控制中,需要应用逻辑来管理各类不同的电源域,并且需要对其进行针对性的设计,以便在用户需要使用这些电源域控制的功能模块时能够快速唤醒,而不会出现明显的延迟。
鉴于此,每一代新的移动处理器中都会不断推出新功能,更好地控制不同计算和互连模块的能耗情况。对于TigerLake,英特尔带来了新的自主动态电压/频率缩放(DVFS)算法,用于控制在不同负载下的电压和频率值,带来更好的电源效率。一般来说,这些设置都是在SoC级别的其他电源优化之上完成的,层级很高并能够有效控制全局设备的工作情况,比如为CPU内核提供更好的时钟门控,为各类控制器和功能模块提供更好的电压控制效率等。在TigerLake上,这类电源控制域甚至包含PCIe、USB和热传感器。不仅如此,当组件需要进入睡眠状态时,如果其中包含的重要数据经常需要在还原时“保存”
在某个地方的话,也可以借助新的控制功能完成存储和还原,能够充分确保数据安全和操作流畅。
Tiger Lake的产品和型号
目前英特尔已发售9款TigerLake处理器,英特尔将其全部归入第十一代酷睿系列移动处理器,产品型号上也注入了“11”的数字用作区分。首次发布的TigerLake处理器包含了i7、i5和i3三个档次,只有低功耗版本,最多4个物理核心,高性能版本和更多核心版本将在后期陆续发布。
Corei7方面,英特尔发布了Corei7-1185G7、Corei7-1165G7和Corei7-1160G7三款,都是四核心八线程处理器、集成Xe显卡,拥有96个EU,缓存都是12MB。Corei7-1185G7和Corei7-1165G7产品的差别在于前者的CPU基准、最大单核心睿频、全核睿频和GPU频率分别是3.0GHz、4.8GHz、4.3GHz和1.3GHz,而后者只有2.8GHz、4.7GHz、4.1GHz和1.3GHz。内存方面都支持DDR43200或者LPDDR4x4266。受制于功耗,Corei7-1160G7四個频率数值分别为1.2GHz、4.4GHz、3.6GHz和1.1GHz,内存方面也仅支持LPDDR4x4266。
在Corei5和Corei3上,英特尔推出了2款i5系列和4款i3系列产品。其中i5系列也是4核心8线程配置,配置了8MB缓存,集成显卡虽然型号为“G7”,但实际上只有80个EU单元;现在发售的2款i3产品仅为2核心4线程配置,配备6MB缓存,搭配G4级别配置48个EU单元的集成显卡。2021年,英特尔还将推出2款4核心8线程的i3处理器,配备8MB缓存。
值得一提的是,英特尔取消了TigerLake具体的TDP值设定,只给出了一个可配置功耗的范围,厂商可以根据产品需要和性能、产品定位等,自行配置处理器的功耗情况。其中,处理器型号以“5“结尾的版本,功耗配置为12W~28W,处理器型号以“0”结尾的版本,功耗配置为7W~15W。
CPU路线图更新
在TigerLake处理器介绍完成后,英特尔还特别带来了处理器路线图的更新。现在,英特尔在CPU方面的路线图分为三个序列。
英特尔处理器的第一个产品序列是“COVES”—TigerLake使用的是“WillowCove”,下一代则是“GoldenCove”。GoldenCove架构将进一步提升单核心性能和AI性能,上市时间应该在2021年。第二个产品序列是新加入的Hybrid系列。目前这个系列仅有LakeField一款产品。作为首个x86混合架构处理器,LakeField在硬件方面的能耗比最多提升了24%,待机电源功耗最多降低了91%,配合操作系统的优化还带来了高达33%的Web性能提升和17%的能耗比提升。在LakeField之后,英特尔下一个混合架构的产品代号将是“AlderLake”,上市时间应该也是2021年左右。第三个产品序列是传统的以超低功耗为主的Atom系列,目前的核心代号为TreMont,2021年会推出新一代名为GraceMont的新核心。
GPU:Xe开启新“视”代
在TigerLake上,英特尔正式启用Xe架构的GPU。Xe架构主要分为XeHPC、XeHP、XeHPG和XeLP四个产品阵列,覆盖了E级超算、数据中心\AI计算、企业、普通用户一直到入门级用户,整体性能范围极为宽泛。目前英特尔在TigerLake上使用的是XeLP,此外还有即将推出的SG1、DG1两款独立显卡,都将采用英特尔10nmSuperFin工艺制造,属于面向入门级用户和集成用户的产品。英特尔还明确了XeHPG这款面向游戏玩家的显卡,表示其拥有出色的图形性能、面向游戏的优化以及硬件光线追踪等特性。 全新架构的硬件基础
英特尔展示了Xe架构在移动设备上的优势,包括更高的浮点性能、更好的每浮点性能(Perf/Flop)、更低的每浮点功耗(Power/Flop)。在这里,英特尔使用了之前IceLake中集成的Gen11图形系统作为基准,宣称XeLP架构中单个计算模块包含96个EU单元,规模是之前产品的1.5倍,能够在每时钟周期计算1536Flops、48个纹理操作和24个像素操作。
在之前的Gen11图形架构中,每个EU单元都由2组、每组4个ALU组成,其中一组用于FP/INT计算,另外一组用于FP和扩展数学计算(EM),每个EU单元设有独立的线程控制器用于分派各类计算任务,其结构模式为“4 4 1”。在XeLP上,英特尔采用接近“8 2 0.5”的设计模式,每个EU单元内部目前有10个ALU。其中8个支持FP和INT计算,在面对INT16格式的INT计算时性能会翻倍,其余的2个ALU则支持FP和扩展数学计算(EM)。2个EU单元共享一个高效率线程控制器,降低了线程控制器占用面积的同时提高了效能。
在存储架构方面,XeLP加入了新的L1数据缓存并将L3缓存的容量升级到了16MB,整个计算模块的数据存取效率得到了提升。在内存接口方面,XeLP的内存接口增加了一倍,支持每时钟周期2×64B的读写,大大提高了数据带宽。在AI计算方面,新的EU单元能够执行更多操作,包括支持FP32、FP16、INT16以及INT8。其中INT8的计算性能是FP32的4倍,这个性能是通过DP4A指令,使用FP32单元完成的。DP4A指令目前在AI加速的GPU上使用已经有一段时间了,英特尔的做法算是进行了功能补完。
由于架构的变化和工艺的更新,新的XeLP相比之前的Gen11图形系统拥有显著的性能、频率、功耗和效能优势。比如在相同的电压下,之前的Gen11的图形核心只能达到1100MHz,而TigerLake中集成的XeLP能够运行在1650MHz上,相比Gen11的頻率大约增加了50%。不仅如此,实际上由于功耗控制的改进,TigerLake中的XeLP运行频率大约在1800MHz左右,这样其性能相比IceLake的Gen11架构大约是2.45倍,不过在英特尔的宣传中这个数据是2倍,即使如此也已经相当惊人了。
除了架构上的大幅度改进,XeLP还在媒体和显示部分予以加强。XeLP支持AV1硬件解码,并让其他编解码模块的吞吐量直接翻倍,这意味着它在60Hz刷新率下支持最大4K或8K视频的播放。
在外部显示方面,XeLP支持4个4K显示管道同时输出画面,将带来更大的分辨率或更多显示器支持、更多的色彩(支持12bitBT2020、HDR10)和更低的功耗。
全面优化的软件支持
之前英特尔数次希望介入GPU市场最终都铩羽而归,主要原因除了硬件架构设计存在问题外,还有软件支持方面的问题。
本次英特尔在XeGPU研发的开始就同步优化驱动和软件支持,聚焦于集成显卡、桌面显卡和HPC三大类型,软件支持包括3D、媒体、显示和计算四大模块,要求稳定、快速、高性能和对Day0级别事件的控制等。英特尔认为,他们需要通过驱动程序去推进效率,从程序端和用户端双管齐下,完成程序端的应用程序层、3DRuntime层和OS层,以及用户端的控制面板层和图形编译器层的协同发展,每个环节都有专门优化和控制,力求出色。
具体到更细节的内容上,Xe的编译器将会带来软硬件调度的协同性设计、支持AI优化,同时还在软件评分方面有所改进。另外Xe还带来了新的DirectX11驱动,这个驱动并没有使用之前英特尔在Gen11图形核心上的内容,而是全部从零开始构建,其目标是瞄准降低计算负荷而来,具体的技术包括减少GPU流水线停机的次数、降低API延迟、对本地内存进行优化等。除此之外,Xe在软件和驱动层面还增加了有关自适应GPU优化、可变比率阴影(VariableRateShading)、即时游戏调优、游戏画面锐化等功能。在用户界面方面,IntelGraphicsCommandCenter(英特尔图形控制中心,简称IGCC)也做出了大幅度改进,用户操作更直观、方便,快捷键应用更轻松,并且可以直接连接Twitch和Youtube进行流媒体视频直播。
在工艺制程以及CPU、GPU之后,英特尔介绍了有关存储、互联、安全和AI方面的内容。英特尔宣称已经开发出第四代3DNAND产品,堆叠层数为144层,其数据存储密度相对于上代产品提升了50%;将第二代3DXPoint层数提高至4层,相关傲腾SSD产品的IOPS数据达到了数百万级别。
写在最后
从2015年到现在,英特尔很久都没有给人们带来一个这样兴奋和值得称赞的技术盛会了。这一次,英特尔似乎是感到了危机的逼近,终于全面爆发,展示了自己创新研发的大量新技术、新工艺和新产品,不但给用户带来更多的性能、更多的功能和创新的体验,还在向市场昭示着昔日霸主的回归。接下来,英特尔需要做的就是将这所有的规划和路线图一一落实,重新回归昔日的荣光。