论文部分内容阅读
作为英特尔Tick-Tock钟摆战略计划的Tock年,也就是架构年,英特尔即将为我们推出工艺不变、架构革新的处理器Haswell。这也意味着它将使用成熟的22nm工艺打造,并将使用新的架构设计。
从目前公开的消息来看,Haswell处理器依然有双核、四核等版本,它的每个内核搭配LLC 2MB缓存,四核将会有8MB缓存,双核则是4MB,和目前的Sandy Bridge、Ivy Bridge几乎没有差别。Haswell在CPU架构方面最大的改进当属加入了新的有利于多线程执行的TSX(Transactional Synchronization eXtensions)扩展和大幅度提升整数计算性能的AVX 2.0(Advanced Vector Extensions)指令技术,令其在某些特定项目中的运算效率有了长足的进步,下面CHIP就为大家解析Haswell的多种技术革新。
架构的革新
Haswell的整体构造与Sandy Bridge十分相似。使用环形总线与各个CPU核心连接,同时用总线连接的还有LLC、GPU核心以及系统逻辑单元。英特尔之所以会采用这个构造是因为环形总线可以更容易地实现各个模块的连接,并且可以推出大量的衍生产品。
不过,新架构在指令下行back-end缓存周围与以往产品有很大的不同,其指令发出/执行管线与之前的数代(从Nehalem到Sandy Bridge)架构相比都有了极大的变化。首先就是从前几代的产品开始一直都采用6指令(uOPs)方式运行,而现在则提升为8指令。而且在指令发出端口方面,Haswell指令的发出端口由之前的2个提升为8个,并将整数运算单位和载入/存储管线各增加了1个。因此Haswell可同时执行4个整数运算及2个载入和1个存储的操作,这可以让Vector单元的峰值运算性能相比之前最高提升两倍。在使用FMA命令时,Haswell的CPU核心浮点运算和SIMD运算性能也将获得两倍的提升。
Haswell还有一些其他的改进,包括内存访问带宽的大幅度提升。如L1缓存的载入带宽由原先的32B/循环提升为64B/循环。而L2和L1缓存的带宽也由之前的256bit提升为512bit。并且L2 TLB(Translation Look-aside Buffer,翻译后援缓冲器)也获得了大幅提升,从而可以大大提升高工作负载时的性能表现。
TSX指令和AVX2.0
经过多年的发展,如今的主流处理器已经达到了4核心4线程、4核心8线程甚至更高的规格,即便是入门的产品也达到了双核心4线程的规格。多线程技术早已不是什么高科技,但是在日常应用中,许多时候拥有更多线程的处理器并不能完全体现出其速度的优势,有部分原因是因为软件、游戏开发商对多核优化不足,但是CPU自身也存在着一定的限制导致多线程运行效率的降低。比如传统操作中一个线程访问了某部分内存数据之后就会通过一个“lock”锁操作来锁定这部分内存,从而保证数据的统一性,这种锁定分为粗粒度线程锁定(Coarse-grained thread lock)、细粒度线程锁定(Fine-grained thread lock)和同步多线程锁定(Simultanecous Multi-Threading)等几种方式。这几种锁定方式各有优劣,但是无论哪种锁定都会造成多线程并行的效率降低,因为各种锁操作是互斥的。
举个简单的例子,当我们在编辑Excel表格时,打算同时编辑两份拷贝,Excel就会提示该文件正在编辑,只能以只读方式打开但不能编辑,这种情况叫做粗粒度线程锁定,这种锁定比较简单,很容易实现,但是会大大降低处理器多线程工作的效率。
细粒度线程锁定可以实现自由度更高的数据同步。还是前面的例子,如果使用细粒度线程锁定,那么每个线程都可以操作不同纵列的数据,这样一来就可以明显提高CPU的执行效率。不过这样做也有较大的风险,比如数据出错的几率更大,特别是多个线程同时向一个区域写入数据时尤为明显。为了避免出错,程序员往往钟爱粗粒度线程锁定,而TSX扩展的设计目的就是评估软硬件状况并为程序员提供无错的细粒度线程锁定。
从英特尔已公布的数据我们可以得知,在使用了事务性内存和TSX扩展后,部分锁操作的性能可提升1~3倍。如在软件仿真中,传统内存需要10.6s的处理时间,事务性内存仅需要4.6s,性能提升明显。
除了TSX扩展之外,在Sandy Bridge架构上首次开始使用的AVX(Advanced Vector Extensions,高级矢量扩展)指令集也升级到了AVX 2.0版本,与现在Ivy Bridge处理器所使用的128bit的AVX指令集相比,AVX 2.0采用了256bit的SIMD浮点指令集和SIMD阵列,在理想状况下浮点和整数性能均可以达到上一代产品的两倍。根据英特尔公布的数据,使用AVX 2.0指令集的Haswell处理器的每个核心、每时钟周期的最高计算能力分别达到了32FLOPs和16FLOPs,达到了上一代产品的两倍。
GPU规格大增
在CPU架构稳步升级的同时,Haswell整合的GPU核心自然也不会落后,虽然从Haswell的GPU核心架构上来看,它在一定程度上沿续了Ivy Bridge的设计,但是在规格方面进行了大幅升级。
从英特尔已公开的资料中我们得知,Haswell图形核心将完整支持DirectX 11.1、OpenGL 3.2、OpenCL 1.2等标准,并支持数字视频输出以及VGA模拟信号输出,可实现独立3屏输出。在规格方面,Haswell拥有3种不同级别的图形核心,与之前Sandy Bridge的HD2000/HD3000和Ivy Bridge的HD2500/HD4000,分别各只有两种规格不同,Haswell的GPU核心有3种规格,在命名方面也有了较大变化。按照运算单元的不同,Haswell的GPU核心分为GT1、GT2和GT3等3种,其中GT1定位最低,只有6个EU单元、24个ALU单元、1个曲面细分单元,与目前Ivy Bridge的HD 2500核芯显示卡规格基本相同。GT2核心的EU单元则大幅提高到20个,并且拥有80个ALU单元、两个曲面细分单元,与目前Ivy Bridge最高级别的HD 4000核芯显示卡的16个EU单元相比多了1/4。 而Haswell的GT3核心的EU单元大幅提升至40个,是GT2的两倍、是HD4000的2.5倍,它拥有160个ALU单元和4个曲面细分单元,如此规模的硬件提升已经让Haswell超越了入门级显示卡的水平,甚至具备叫板中端显示卡的能力,在性能方面已经向AMD的APU产品看齐,这对AMD来说可不是个好消息。不过有消息称,拥有GT3核心最高规格的处理器只会出现在移动平台上。 激进的功耗控制
在移动趋势越来越明显的情况下,英特尔已经悄然改变了处理器的研发策略,将重点从提升性能转向降低功耗、提高效能等方面。新的Haswell虽然不会升级制造工艺,但会从架构和技术上作出努力,特别是会整合稳压器模块(VRM),改进处理器供电的精细度,并在不影响性能的前提下降低功耗。
目前,稳压器和各种供电IC都安置在主板上,而为了加强处理器供电并且增加卖点,主板供电电路相数在不断猛增,制造成本和占用空间也水涨船高,但都达不到英特尔想要的理想供电水平。为此,英特尔特别研发了一种特殊的可编程芯片,在Haswell处理器电路中设计了一个2.8mm2的功耗单元(Power Cell),它相当于一个mini的VR调压器,每个功耗单元可通过25A的电流,而且支持多达16相供电,每个处理器上可以有20个这样的功耗单元,也就是说,理论上每个处理器最多可以拥有320相供电。这个内置的供电系统可以独立调节每个内核、显示卡核心、SA系统助手以及内部的I/O总线等各个部分电路的供电,这可以实现更高精度的电压调节,并且特别有助于降低处理器的功耗。
作为节能的另一个举措,Haswell还将支持微软在Windows 8中引入的Connected standby(连接状态)节能技术,设置了可以快速恢复的SOix模式,这个技术可以将平台功耗降低至0.1W级别的水平,这对于在智能设备领域野心勃勃的英特尔来说是个好消息。
新的芯片组
Haswell配搭的芯片组代号为Lynx Point,按照英特尔的习惯,它将成为新的8系列主板,其最大的特点是,不再使用7系芯片65nm的工艺,而是升级到45nm以进一步减少功耗。
在接口支持方面,英特尔终于大方了一次,如SATA接口全面升级为6个SATA 6Gb/s,USB 3.0接口也增加到6个,USB 2.0则从10个减少到8个。
除此之外,在PCI-E通道的分配方面也更加灵活,Lynx Point共有18条PCI-E通道,主要分配给USB 3.0、PCI-E、SATA接口以及网络接口使用,并且可以按需分配。比如ATX规格主板会需要更多的PCI-E通道,而uATX主板可能需要更多的USB 3.0接口。
移动平台的代号为Shark Bay,它与目前的移动平台最大的不同是封装方式。相比上一代产品,它有着明显的策略性改变,从Shark Bay开始,英特尔开始将SOC的概念推向主流平台,不再只局限在低功耗的Atom芯片上。初期很可能会延续Lynnfield的做法,将多个芯片直接封装在一起,后续再进行电路级的整合。如果实现了SoC,不但减少了独立的南桥芯片的发热、节省了主板空间,还降低了主板成本,这对于追求轻薄移动平台的用户来说是一个令人振奋的消息。不过这对于主流的台式机主板厂商来说并不是一个好消息,因为它们在主板上可以做的事情越来越少了。
总结
在主流用户最关心的处理器性能方面,虽然TSX多线程优化、AVX 2.0指令看起来非常美好,但是在了解了Haswell的架构和规格方面的信息之后我们可以得知,Haswell只是上一代处理器架构微调的改进版,其处理器性能很难有质的飞跃。因为从现有的资料来看,Haswell更多的改变是在保证性能的前提下,尽可能地去降低功耗,这似乎对于移动平台来说更为重要。如果我们需要的是一个主流性能的台式电脑,Haswell也许并不能和Ivy Bridge拉开较大的性能差距,而且无论是处理器还是主板在新品上市时都会有一段时间的价格高峰期,这样一来Haswell仅存的性能和功耗优势的光辉将会被高昂的平台价格所埋没,所以专门等待Haswell平台来DIY一台主流性能的台式电脑并无太大必要。如果是为了更换一台笔记本电脑的话,Haswell则是非常值得我们等待的,因为无论从功耗、处理器性能还是图形性能上看,Haswell的表现都非常令人期待。
从目前公开的消息来看,Haswell处理器依然有双核、四核等版本,它的每个内核搭配LLC 2MB缓存,四核将会有8MB缓存,双核则是4MB,和目前的Sandy Bridge、Ivy Bridge几乎没有差别。Haswell在CPU架构方面最大的改进当属加入了新的有利于多线程执行的TSX(Transactional Synchronization eXtensions)扩展和大幅度提升整数计算性能的AVX 2.0(Advanced Vector Extensions)指令技术,令其在某些特定项目中的运算效率有了长足的进步,下面CHIP就为大家解析Haswell的多种技术革新。
架构的革新
Haswell的整体构造与Sandy Bridge十分相似。使用环形总线与各个CPU核心连接,同时用总线连接的还有LLC、GPU核心以及系统逻辑单元。英特尔之所以会采用这个构造是因为环形总线可以更容易地实现各个模块的连接,并且可以推出大量的衍生产品。
不过,新架构在指令下行back-end缓存周围与以往产品有很大的不同,其指令发出/执行管线与之前的数代(从Nehalem到Sandy Bridge)架构相比都有了极大的变化。首先就是从前几代的产品开始一直都采用6指令(uOPs)方式运行,而现在则提升为8指令。而且在指令发出端口方面,Haswell指令的发出端口由之前的2个提升为8个,并将整数运算单位和载入/存储管线各增加了1个。因此Haswell可同时执行4个整数运算及2个载入和1个存储的操作,这可以让Vector单元的峰值运算性能相比之前最高提升两倍。在使用FMA命令时,Haswell的CPU核心浮点运算和SIMD运算性能也将获得两倍的提升。
Haswell还有一些其他的改进,包括内存访问带宽的大幅度提升。如L1缓存的载入带宽由原先的32B/循环提升为64B/循环。而L2和L1缓存的带宽也由之前的256bit提升为512bit。并且L2 TLB(Translation Look-aside Buffer,翻译后援缓冲器)也获得了大幅提升,从而可以大大提升高工作负载时的性能表现。
TSX指令和AVX2.0
经过多年的发展,如今的主流处理器已经达到了4核心4线程、4核心8线程甚至更高的规格,即便是入门的产品也达到了双核心4线程的规格。多线程技术早已不是什么高科技,但是在日常应用中,许多时候拥有更多线程的处理器并不能完全体现出其速度的优势,有部分原因是因为软件、游戏开发商对多核优化不足,但是CPU自身也存在着一定的限制导致多线程运行效率的降低。比如传统操作中一个线程访问了某部分内存数据之后就会通过一个“lock”锁操作来锁定这部分内存,从而保证数据的统一性,这种锁定分为粗粒度线程锁定(Coarse-grained thread lock)、细粒度线程锁定(Fine-grained thread lock)和同步多线程锁定(Simultanecous Multi-Threading)等几种方式。这几种锁定方式各有优劣,但是无论哪种锁定都会造成多线程并行的效率降低,因为各种锁操作是互斥的。
举个简单的例子,当我们在编辑Excel表格时,打算同时编辑两份拷贝,Excel就会提示该文件正在编辑,只能以只读方式打开但不能编辑,这种情况叫做粗粒度线程锁定,这种锁定比较简单,很容易实现,但是会大大降低处理器多线程工作的效率。
细粒度线程锁定可以实现自由度更高的数据同步。还是前面的例子,如果使用细粒度线程锁定,那么每个线程都可以操作不同纵列的数据,这样一来就可以明显提高CPU的执行效率。不过这样做也有较大的风险,比如数据出错的几率更大,特别是多个线程同时向一个区域写入数据时尤为明显。为了避免出错,程序员往往钟爱粗粒度线程锁定,而TSX扩展的设计目的就是评估软硬件状况并为程序员提供无错的细粒度线程锁定。
从英特尔已公布的数据我们可以得知,在使用了事务性内存和TSX扩展后,部分锁操作的性能可提升1~3倍。如在软件仿真中,传统内存需要10.6s的处理时间,事务性内存仅需要4.6s,性能提升明显。
除了TSX扩展之外,在Sandy Bridge架构上首次开始使用的AVX(Advanced Vector Extensions,高级矢量扩展)指令集也升级到了AVX 2.0版本,与现在Ivy Bridge处理器所使用的128bit的AVX指令集相比,AVX 2.0采用了256bit的SIMD浮点指令集和SIMD阵列,在理想状况下浮点和整数性能均可以达到上一代产品的两倍。根据英特尔公布的数据,使用AVX 2.0指令集的Haswell处理器的每个核心、每时钟周期的最高计算能力分别达到了32FLOPs和16FLOPs,达到了上一代产品的两倍。
GPU规格大增
在CPU架构稳步升级的同时,Haswell整合的GPU核心自然也不会落后,虽然从Haswell的GPU核心架构上来看,它在一定程度上沿续了Ivy Bridge的设计,但是在规格方面进行了大幅升级。
从英特尔已公开的资料中我们得知,Haswell图形核心将完整支持DirectX 11.1、OpenGL 3.2、OpenCL 1.2等标准,并支持数字视频输出以及VGA模拟信号输出,可实现独立3屏输出。在规格方面,Haswell拥有3种不同级别的图形核心,与之前Sandy Bridge的HD2000/HD3000和Ivy Bridge的HD2500/HD4000,分别各只有两种规格不同,Haswell的GPU核心有3种规格,在命名方面也有了较大变化。按照运算单元的不同,Haswell的GPU核心分为GT1、GT2和GT3等3种,其中GT1定位最低,只有6个EU单元、24个ALU单元、1个曲面细分单元,与目前Ivy Bridge的HD 2500核芯显示卡规格基本相同。GT2核心的EU单元则大幅提高到20个,并且拥有80个ALU单元、两个曲面细分单元,与目前Ivy Bridge最高级别的HD 4000核芯显示卡的16个EU单元相比多了1/4。 而Haswell的GT3核心的EU单元大幅提升至40个,是GT2的两倍、是HD4000的2.5倍,它拥有160个ALU单元和4个曲面细分单元,如此规模的硬件提升已经让Haswell超越了入门级显示卡的水平,甚至具备叫板中端显示卡的能力,在性能方面已经向AMD的APU产品看齐,这对AMD来说可不是个好消息。不过有消息称,拥有GT3核心最高规格的处理器只会出现在移动平台上。 激进的功耗控制
在移动趋势越来越明显的情况下,英特尔已经悄然改变了处理器的研发策略,将重点从提升性能转向降低功耗、提高效能等方面。新的Haswell虽然不会升级制造工艺,但会从架构和技术上作出努力,特别是会整合稳压器模块(VRM),改进处理器供电的精细度,并在不影响性能的前提下降低功耗。
目前,稳压器和各种供电IC都安置在主板上,而为了加强处理器供电并且增加卖点,主板供电电路相数在不断猛增,制造成本和占用空间也水涨船高,但都达不到英特尔想要的理想供电水平。为此,英特尔特别研发了一种特殊的可编程芯片,在Haswell处理器电路中设计了一个2.8mm2的功耗单元(Power Cell),它相当于一个mini的VR调压器,每个功耗单元可通过25A的电流,而且支持多达16相供电,每个处理器上可以有20个这样的功耗单元,也就是说,理论上每个处理器最多可以拥有320相供电。这个内置的供电系统可以独立调节每个内核、显示卡核心、SA系统助手以及内部的I/O总线等各个部分电路的供电,这可以实现更高精度的电压调节,并且特别有助于降低处理器的功耗。
作为节能的另一个举措,Haswell还将支持微软在Windows 8中引入的Connected standby(连接状态)节能技术,设置了可以快速恢复的SOix模式,这个技术可以将平台功耗降低至0.1W级别的水平,这对于在智能设备领域野心勃勃的英特尔来说是个好消息。
新的芯片组
Haswell配搭的芯片组代号为Lynx Point,按照英特尔的习惯,它将成为新的8系列主板,其最大的特点是,不再使用7系芯片65nm的工艺,而是升级到45nm以进一步减少功耗。
在接口支持方面,英特尔终于大方了一次,如SATA接口全面升级为6个SATA 6Gb/s,USB 3.0接口也增加到6个,USB 2.0则从10个减少到8个。
除此之外,在PCI-E通道的分配方面也更加灵活,Lynx Point共有18条PCI-E通道,主要分配给USB 3.0、PCI-E、SATA接口以及网络接口使用,并且可以按需分配。比如ATX规格主板会需要更多的PCI-E通道,而uATX主板可能需要更多的USB 3.0接口。
移动平台的代号为Shark Bay,它与目前的移动平台最大的不同是封装方式。相比上一代产品,它有着明显的策略性改变,从Shark Bay开始,英特尔开始将SOC的概念推向主流平台,不再只局限在低功耗的Atom芯片上。初期很可能会延续Lynnfield的做法,将多个芯片直接封装在一起,后续再进行电路级的整合。如果实现了SoC,不但减少了独立的南桥芯片的发热、节省了主板空间,还降低了主板成本,这对于追求轻薄移动平台的用户来说是一个令人振奋的消息。不过这对于主流的台式机主板厂商来说并不是一个好消息,因为它们在主板上可以做的事情越来越少了。
总结
在主流用户最关心的处理器性能方面,虽然TSX多线程优化、AVX 2.0指令看起来非常美好,但是在了解了Haswell的架构和规格方面的信息之后我们可以得知,Haswell只是上一代处理器架构微调的改进版,其处理器性能很难有质的飞跃。因为从现有的资料来看,Haswell更多的改变是在保证性能的前提下,尽可能地去降低功耗,这似乎对于移动平台来说更为重要。如果我们需要的是一个主流性能的台式电脑,Haswell也许并不能和Ivy Bridge拉开较大的性能差距,而且无论是处理器还是主板在新品上市时都会有一段时间的价格高峰期,这样一来Haswell仅存的性能和功耗优势的光辉将会被高昂的平台价格所埋没,所以专门等待Haswell平台来DIY一台主流性能的台式电脑并无太大必要。如果是为了更换一台笔记本电脑的话,Haswell则是非常值得我们等待的,因为无论从功耗、处理器性能还是图形性能上看,Haswell的表现都非常令人期待。