论文部分内容阅读
自Nehalem开始,英特尔就采用了融合核心的设计,亦即在不同的产品线中使用同一个微架构,只是核外部分有所不同。例如,同一时代面向服务器的Xeon 5600/3500系列架构、面向高端桌面的Core i7 990X、面向主流桌面的Core i7 870均属于Westmere架构(Nehalem微架构)。一般来说,同一个微架构系列会衍生出3到4个不同的系统架构来面向多个不同的产品线。
Sandy Bridge-E处理器
内存控制器、PCI Express和QPI这些IO需要不少的针脚数,如Nehalem/Westmere时代有LGA1567(四内存通道)、LGA1366(三内存通道)、LGA1156(双内存通道)的区别;到了Sandy Bridge,由于架构的大变化,针脚也有所改动,变成了LGA2011和LGA1155两种。显然,LGA1155就是LGA1156的后续,两个内存通道维持不变。而LGA1567的Sandy Bridge后续型号则从路线图上消失。跟Nehalem-EX/Westmere-EX不同,Sandy Bridge-EX只有四路而没有八路产品。历史上曾经存在LGA1367,后来融合进LGA2011产品线,因为LGA2011封装已经非常复杂,并且可以包含LGA1367的所有功能,没有必要再自找麻烦增加一个型号。
因此LGA2011就是LGA1366的后续。LGA2011是一个将会应用得非常广泛的针脚/插槽系统,包括企业级的Sandy Bride-EN/EP/EX产品线均会采用。在桌面系统上,使用LGA2011的处理器代号为Sandy Bridge-E。
Sandy Bridge-E的微架构和低端的LGA1155 Sandy Bridge完全一致,只是核外架构更为强大。LGA2011 Sandy Bridge-E目前最高的配置可以达到6个核心/12个线程,而LGA1155 Sandy Bridge则被限制为4个核心/8个线程。Sandy Bridge-E没有搭载GPU,更多的空间用来加大L3 Cache容量,6核心版本提供了15MB的容量,平均每核心2.5MB,在LGA1155上平均每核心为2MB。从下图的Sandy Bridge-E晶圆图可以看出,它就是使用企业级的Sandy Bridge-EP裁减而来,包括图中两个被裁减的核心以及对应的L3缓存块,以及左上角的QPI接口电路。最下方为占用两个环形总线站台的内存控制器,每个环形总线站台连接两个内存通道,右上角为System Agent系统代理,包括PCI Express控制器、DMI接口以及其它控制电路。
Sandy Bridge-E提供了40个PCIe Lanes,比普通Sandy Bridge的最大值24个Lanes要多近一倍,并且需要特别说明的是,Sandy Bridge-E支持PCI Express 3.0,速率达到8GT/s,采用128b/130b编码,而传统的Sandy Bridge仅支持PCI Express 2.0,速率为5GT/s,8b/10b编码,经过简单的运算可以得出,PCIe 3.0的单位带宽是PCIe 2.0的两倍。
除了提供超高带宽的IO能力之外,Sandy Bridge-E还将内存支持提升到四个通道,此外还官方支持DDR3-1600规格(以及更高的超频规格),在提高内存带宽的同时提升了内存支持容量。Sandy Bridge-E支持最大64GB的内存。
座驾:X79芯片组
作为Gulftown的下一代,Sandy Bridge-E平台从原来的三芯片方案进化到双芯片方案,原有的北桥(IOH)部分被CPU完全整合。PCI Express控制器的电路实现比较复杂,在上一代平台中,不得不使用一个独立的IOH(工艺为65nm)用于提供最多36个PCIe 2.0 Lanes,在融合进CPU之后,得益于工艺的进步,PCIe控制器最终提升到了3.0版本,带宽翻番并且数量也提升到了40条。也是因为其复杂度,Sandy Bridge-E和对应的企业级处理器发布做了几次延期。此外,由于PCI-SIG认证的原因,Sandy Bridge-E官方宣称仍然不支持PCIe 3.0,我们需要明白,它确实支持。
由于独立北桥芯片的消失,因此处理器芯片组现在就只剩下了南桥部分。Sandy Brdige-E搭配的主板芯片组称为X79,属于Patsburg家族,跟CPU一样,也是由对应的企业级芯片组裁减而来。Patsburg企业级芯片组有“-A”、“-B”、“-T”、“-X”四个型号,基本规格跟LGA1155 Sandy Brdige使用的Cougar Point没有什么不同,区别在于Patsburg提供了一个SAS/SATA Controller Unit(SCU),用来提供额外的存储连接能力。SCU的出现源于英特尔认为,随着CPU处理能力的提升和文件系统的进化,未来存储将会从硬RAID转向软RAID。
Patsburge四个型号的区别就是SCU的配置依次增强,“-A”型号在基本功能上增加4个SATA接口(仅支持6Gb/s),“-B”则可以进一步地支持SAS,“-T”将SCU的接口数量提升到8个,并且SCU通过独立的SCU Uplink连接到LGA2011 Sandy Bridge处理器,而不再是需要经过狭窄的DMI通道,“-X”型号则是可以支持RAID 5功能。由于SCU稳定性的问题,X79芯片组的规格一再修改,目前发布的版本SCU功能已经彻底禁用,或许未来会再次出现。由于需要配合SCU,因此Patsburge搭配的磁盘驱动也不再是普通的Rapid Storage Technology,而是新的Rapid Storage Technology enterprise(RSTe)。除了SCU之外,X79并没有什么特别的地方:支持8个PCI Express 2.0 Lanes、14个USB 2.0、2个SATA 6Gb/s接口和4个SATA 4Gb/s接口。为了对应Sandy Bridge-E的超频功能,X79支持一些独特的调整项目。
耗时长久的性能测试
我们使用了一整套Sandy Bridge系统进行了SPEC CPU 2006 v1.1测试,并与之前的数据进行对比。这套系统使用的处理器是Core i7 3960X,6核心12线程,默认频率为3.3GHz,6核心Turbo Boost可以达到3.6GHz,单/双核心Turbo Boost可以达到3.9GHz。Turbo Boost技术会对性能分析带来影响,因此本文给出打开/关闭Turbo Boost技术后的性能成绩。此外,在Nehalem/Sandy Bridge微架构中,一些资源如TLB、ROB、RS等是两个硬件线程共享的,超线程实际上会导致单线程运行资源的减少,因此我们分别测试了打开和关闭超线程下的成绩。
内存子系统也是SPEC CPU测试的重要因素,我们为测试系统准备了32GB的内存(8 x 4GB)。Sandy Bridge处理器现在可以支持DDR3-1600规格的内存,因此我们还分别测试了DDR3-1333与DDR3-1600规格下的性能成绩。此外,为了体现内存带宽的影响,我们还分别测试了3个内存通道与4个内存通道下的性能。我们使用了一块古老的ATI Radeon X550显卡来进行测试。SPEC CPU几乎不受CPU和内存之外部件的影响。为了将磁盘的影响最小化,我们使用了6个Intel X25-V SSD组建一个RAID 0阵列来作为存储系统。
测试使用的操作系统平台是Windows Server 2008 R2,Sandy Bridge支持的AVX指令集需要升级到SP1版本才能支持,我们确实进行了SP1下的SPEC CPU 2006测试,不过本篇中,我们仅给出了传统平台上的测试。与以往的测试完全一样:基于SPEC CPU 2006 v1.1和一年多前的Intel Compiler 11.0,不支持Sandy Bridge的AVX指令集,这可以体现出Sandy Bridge在运行老的代码时相对上一代处理器架构的变化。每个SPEC CPU 2006的测试时间大概为2
Sandy Bridge-E处理器
内存控制器、PCI Express和QPI这些IO需要不少的针脚数,如Nehalem/Westmere时代有LGA1567(四内存通道)、LGA1366(三内存通道)、LGA1156(双内存通道)的区别;到了Sandy Bridge,由于架构的大变化,针脚也有所改动,变成了LGA2011和LGA1155两种。显然,LGA1155就是LGA1156的后续,两个内存通道维持不变。而LGA1567的Sandy Bridge后续型号则从路线图上消失。跟Nehalem-EX/Westmere-EX不同,Sandy Bridge-EX只有四路而没有八路产品。历史上曾经存在LGA1367,后来融合进LGA2011产品线,因为LGA2011封装已经非常复杂,并且可以包含LGA1367的所有功能,没有必要再自找麻烦增加一个型号。
因此LGA2011就是LGA1366的后续。LGA2011是一个将会应用得非常广泛的针脚/插槽系统,包括企业级的Sandy Bride-EN/EP/EX产品线均会采用。在桌面系统上,使用LGA2011的处理器代号为Sandy Bridge-E。
Sandy Bridge-E的微架构和低端的LGA1155 Sandy Bridge完全一致,只是核外架构更为强大。LGA2011 Sandy Bridge-E目前最高的配置可以达到6个核心/12个线程,而LGA1155 Sandy Bridge则被限制为4个核心/8个线程。Sandy Bridge-E没有搭载GPU,更多的空间用来加大L3 Cache容量,6核心版本提供了15MB的容量,平均每核心2.5MB,在LGA1155上平均每核心为2MB。从下图的Sandy Bridge-E晶圆图可以看出,它就是使用企业级的Sandy Bridge-EP裁减而来,包括图中两个被裁减的核心以及对应的L3缓存块,以及左上角的QPI接口电路。最下方为占用两个环形总线站台的内存控制器,每个环形总线站台连接两个内存通道,右上角为System Agent系统代理,包括PCI Express控制器、DMI接口以及其它控制电路。
Sandy Bridge-E提供了40个PCIe Lanes,比普通Sandy Bridge的最大值24个Lanes要多近一倍,并且需要特别说明的是,Sandy Bridge-E支持PCI Express 3.0,速率达到8GT/s,采用128b/130b编码,而传统的Sandy Bridge仅支持PCI Express 2.0,速率为5GT/s,8b/10b编码,经过简单的运算可以得出,PCIe 3.0的单位带宽是PCIe 2.0的两倍。
除了提供超高带宽的IO能力之外,Sandy Bridge-E还将内存支持提升到四个通道,此外还官方支持DDR3-1600规格(以及更高的超频规格),在提高内存带宽的同时提升了内存支持容量。Sandy Bridge-E支持最大64GB的内存。
座驾:X79芯片组
作为Gulftown的下一代,Sandy Bridge-E平台从原来的三芯片方案进化到双芯片方案,原有的北桥(IOH)部分被CPU完全整合。PCI Express控制器的电路实现比较复杂,在上一代平台中,不得不使用一个独立的IOH(工艺为65nm)用于提供最多36个PCIe 2.0 Lanes,在融合进CPU之后,得益于工艺的进步,PCIe控制器最终提升到了3.0版本,带宽翻番并且数量也提升到了40条。也是因为其复杂度,Sandy Bridge-E和对应的企业级处理器发布做了几次延期。此外,由于PCI-SIG认证的原因,Sandy Bridge-E官方宣称仍然不支持PCIe 3.0,我们需要明白,它确实支持。
由于独立北桥芯片的消失,因此处理器芯片组现在就只剩下了南桥部分。Sandy Brdige-E搭配的主板芯片组称为X79,属于Patsburg家族,跟CPU一样,也是由对应的企业级芯片组裁减而来。Patsburg企业级芯片组有“-A”、“-B”、“-T”、“-X”四个型号,基本规格跟LGA1155 Sandy Brdige使用的Cougar Point没有什么不同,区别在于Patsburg提供了一个SAS/SATA Controller Unit(SCU),用来提供额外的存储连接能力。SCU的出现源于英特尔认为,随着CPU处理能力的提升和文件系统的进化,未来存储将会从硬RAID转向软RAID。
Patsburge四个型号的区别就是SCU的配置依次增强,“-A”型号在基本功能上增加4个SATA接口(仅支持6Gb/s),“-B”则可以进一步地支持SAS,“-T”将SCU的接口数量提升到8个,并且SCU通过独立的SCU Uplink连接到LGA2011 Sandy Bridge处理器,而不再是需要经过狭窄的DMI通道,“-X”型号则是可以支持RAID 5功能。由于SCU稳定性的问题,X79芯片组的规格一再修改,目前发布的版本SCU功能已经彻底禁用,或许未来会再次出现。由于需要配合SCU,因此Patsburge搭配的磁盘驱动也不再是普通的Rapid Storage Technology,而是新的Rapid Storage Technology enterprise(RSTe)。除了SCU之外,X79并没有什么特别的地方:支持8个PCI Express 2.0 Lanes、14个USB 2.0、2个SATA 6Gb/s接口和4个SATA 4Gb/s接口。为了对应Sandy Bridge-E的超频功能,X79支持一些独特的调整项目。
耗时长久的性能测试
我们使用了一整套Sandy Bridge系统进行了SPEC CPU 2006 v1.1测试,并与之前的数据进行对比。这套系统使用的处理器是Core i7 3960X,6核心12线程,默认频率为3.3GHz,6核心Turbo Boost可以达到3.6GHz,单/双核心Turbo Boost可以达到3.9GHz。Turbo Boost技术会对性能分析带来影响,因此本文给出打开/关闭Turbo Boost技术后的性能成绩。此外,在Nehalem/Sandy Bridge微架构中,一些资源如TLB、ROB、RS等是两个硬件线程共享的,超线程实际上会导致单线程运行资源的减少,因此我们分别测试了打开和关闭超线程下的成绩。
内存子系统也是SPEC CPU测试的重要因素,我们为测试系统准备了32GB的内存(8 x 4GB)。Sandy Bridge处理器现在可以支持DDR3-1600规格的内存,因此我们还分别测试了DDR3-1333与DDR3-1600规格下的性能成绩。此外,为了体现内存带宽的影响,我们还分别测试了3个内存通道与4个内存通道下的性能。我们使用了一块古老的ATI Radeon X550显卡来进行测试。SPEC CPU几乎不受CPU和内存之外部件的影响。为了将磁盘的影响最小化,我们使用了6个Intel X25-V SSD组建一个RAID 0阵列来作为存储系统。
测试使用的操作系统平台是Windows Server 2008 R2,Sandy Bridge支持的AVX指令集需要升级到SP1版本才能支持,我们确实进行了SP1下的SPEC CPU 2006测试,不过本篇中,我们仅给出了传统平台上的测试。与以往的测试完全一样:基于SPEC CPU 2006 v1.1和一年多前的Intel Compiler 11.0,不支持Sandy Bridge的AVX指令集,这可以体现出Sandy Bridge在运行老的代码时相对上一代处理器架构的变化。每个SPEC CPU 2006的测试时间大概为2