论文部分内容阅读
以工程美学的角度来看,英特尔酷睿微架构与AMD K10微架构都缺乏一种技术之美:前者拥有更强的并行指令执行能力,因而具有出色的每瓦性能,让英特尔在新一轮战争中赢得胜利。但酷睿平台依然采用老旧的南北桥芯片组架构,CPU与CPU、CPU与内存之间无法实现短延时的快捷通讯,未能将系统性能发挥到极致。K10微架构没有这方面的缺点,但它的指令解码机制不过是当年K7架构的翻版,致使其指令效能相对不高。
英特尔将于下半年发布的Nehalem将成为史上第一种称得上完美的架构,Nehalem继承了现行酷睿微架构高指令解码能力的优点,具有更为出色的每瓦性能,同时又糅合了AMD K8所创立的集成内存控制器、芯片间高速直连等思想——AMD为此掀起了一场新的口水仗,认为技术创新先出于己,但这显然经不起深究,因为K8的连接架构实际上是来自RISC体系,早在上个世纪末,IBM的Power 4处理器即采用此项设计。不管怎么说,我们将在Nehalem身上看到一次X86处理器的革命,英特尔平台也将因此进入新的纪元。
Nehalem的技术概要
无论是在处理器设计还是半导体工艺,英特尔都显得更加锐意进取,为了保证市场领先,让对手没有可乘之机,英特尔执行严格的工艺升级和架构更迭道路,英特尔内部将每一次工艺升级都称为一次“Tick”,Tick除了工艺升级外还会对现行的处理器架构进行改良,譬如这次Penryn推出就属于一次Tick:制造工艺从65纳米升级到45纳米,同时Penryn在Core 2 Duo基础上进行改良,包括SSE4指令集引入、二级缓存增加,等等。而每一次微架构更换则称为“Tock”,譬如从NetBurst到Core就是一次Tock,新一轮的Tock便是Nehalem微架构的推出。根据计划,英特尔的每个Tick-Tock周期为两年时间,也就是每隔两年都将推出一次新架构,同时在某种架构推出一年后,将会推出新工艺和改良设计的新产品,这种有序的升级模式可以令英特尔每个年度都有性能更出色的新产品、新平台出现,如果未来AMD无法跟上英特尔的步伐,那么将会被越抛越远。
我们将在2008年第四季度看到Nehalera微架构的推出。在指令解码、执行部分,Nehalem实际上是基于现行的酷睿架构开发,譬如它拥有4条指令并行解码能力,微指令融合、宏指令融合等技术一应俱全——这些方面改进的余地相对有限。指令集部分,Nehalem采用增强版的SSE4.2,它在现行SSE4基础上增加了7条数据库操作相关的新指令,使之可以高效率地处理数据库构建、查询等繁重任务,同时也加快数据传输,可以显著提升数据库服务器的实际性能。另外,Nehalem将支持类似HyperThreading的SMT多线程处理能力,虽然Penryn也具有多线程技术,但Nehalem在该方面的性能可比Penryn高出20%-100%,这主要得益于Nehalem拥有更先进的多线程算法。
Nehalem将支持原生四核设计,这一点也符合今天的潮流,基本上,Nehalem在指令处理方面并没有根本性的变革,但它将酷睿微架构的高效率演绎到极致。Nehalera的革命性更多体现在它引入集成内存控制器设计和名为“QuickPath”的内部互联架构——后者可以同AMD的HyperTransport超传输总线直接类比。内存控制器方面,Nehalem的设计十分恐怖:它首度支持三通道DDR3规范,这意味着Nehalem平台的最高内存带宽将达到32GBps(DDR3-1333),相当于目前GeForce 8600GTS的显存带宽;另外,Nehalem不再对目前的DDR2提供支持,充分体现英特尔激进设计的风范。QuickPath总线也就是原先所说的“CSI”总线,它在功能上与HyperTransport类似,不过英特尔其实是在PCI Express总线基础上开发Quick Path——QuickPath采用点对点设计,每个基本通路包括一个线路对,分别负责数据发送和接收;QuickPath的数据传输频率高达4.8GHz-6.4GHz,这意味着每个线路对的传输速率将达到4.8Gbps-6.4Gbps,由于Nehalem的QuickPath传输包括4条链路,这就意味着QuickPath可以提供24GBps-32GBps的带宽,对于处理器与处理器、处理器与芯片组的数据传输任务而言,这样的带宽数字绰绰有余。
针对服务器的Nehalem处理器将拥有至少4组QuickPath传输,可组成包括4枚处理器的4路服务器系统——由于每颗处理器可包含4颗CPU核心,4路系统将包括16枚运算内核,再加上SMT多线程支持,4路Nehalem系统最多可支持32线程并行运作。英特尔目前未公布Nehalem是否能够支持更多处理器的互联,但以集成内存控制器设计和QuickPath总线设计来看,Nehalem平台理论上可具有媲美AMD K10的扩展弹性,即可以任意多处理器构成集群系统,并且处理器数量可以随意增加和减少,这对于构建高性能集群非常有利。当然要做到这一点,QuickPath总线就必须支持线缆传输,英特尔虽然还未公布QuickPath是否具有这样的能力,但这显然是QuickPath技术的发展方向。
深度改良的微架构、集成内存控制器设计以及QuickPath直连技术,令Nehalem拥有更为出色的执行效率——在单线程、同频率条件下,Nehalem的运算性能比现行Penryn架构提升10%-25%;而在相同功耗下,Nehalem的效能同比上升30%,或者说在相同效能条件下,Nehalem的功耗比Penryn低出30%,整体表现极为优秀!很明显,如果AMD继续打算用K10架构来应对Nehalem,那么将会一败涂地,及时推出可与之匹敌的新一代微架构势在必行。
除了每瓦性能的提升,Nehalem也更加注重运行时的实际功耗表现,譬如它将拥有高度灵活的能源管理机制,可实现类似AMD Griffen移动处理器的供电分离和动态频率管理,这将大幅度降低处理器在闲置条件下的能耗水平。与此同时,Nehalem还将具有一项名为“Turbo Mode”的功能,该功能其实类似于Santa Rosa迅驰平台的IDA(Enhanced DynamicAcceleration),即当系统只执行单线程任务时,将其中的一个核心关闭,另一个核心则自动提高频率,相当于超频运作,达到提高单线程性能的目的。我们不必担心会有功耗过高、CPU过热之类的问题,Turbo Mode自身将根据处理器实际功耗、温度以及规格限制进行IDA运作,确保在安全稳定条件下进行加速,而由于一个核心闲置,另一个核心即便超频运 作,也不会导致CPU功耗超过限定值。
Nehalem平台的I/O中枢
集成内存控制器和QuickPath设计让Nehalem抛弃了沿用多年的“前端总线(FSB)”设计,现在,CPU不必经过“前端总线一北桥一内存总线”的转接才能访问内存,而是直接通过内存控制器就能访问内存资源,访问延迟可以降低50%以上!QuickPath总线则实现了多处理器的直接互联,同样无需再经过FSB。这套连接架构无疑要比传统的方案更为先进,AMD平台过去多年的成功经验也很好地说明了这一点。
不过,Nehalem在集成方面比AMD K10更进了一步,它不仅将内存控制器纳入CPU内部,而且将PCI Express控制器也直接集成(Nehalem的首款产品并未集成这两者),换句话说Nehalem实际上包含了整个北桥。既然如此,未来英特尔的芯片组就将进入单芯片时代,只需由一枚I/O芯片(即传统意义上的南桥)负责与外围设备的通讯,英特尔将该枚芯片称为PCH(Platform ControllerHub),首颗PCH芯片的开发代号为Ibexpeak。
据悉,Ibexpeak将采用65纳米工艺制造,采用28×28FCBGA封装,它的具体规格包括:支持8组PCI Express 2.0 X1接口,比上一代ICH的6组和PCI Express 1.0规范更进了一步,可充分满足系统I/O扩展的需求,支持6组SATA 2.0硬盘接口,其中的Port4及Port5两个端口可支持FIS-basedMulti,Port技术——所谓MultiPort,就是指可以让一个SATA端口连接多块SATA硬盘,该技术共有Command-based switching及FrameInformation Structure(FIS)-based switching两种模式,区别在于Command-based switching只容许一组SATA设备独占所有带宽,其他设备则需要等候该指令完成后才能做出调用,相当于通过时间片划分来管理资源,现行的IC H9南桥便是支持这种模式。与之不同,FIS based switching则允许多个SATA设备同时共享带宽,它的工作效率比Command-based Switching更高,也更能充分发挥出SATA 2.0 3Gbps带宽的优势,不过这种设计比较复杂,要求南桥具有较高的硬件性能,以满足多设备频繁数据传输的要求。USB方面,Ibexpeak支持多达14个USB 2.0接口,并且使用RateMatching Hub取代旧有的UHCI架构,令所有的USB端口均支持HS/FS/LS工作模式,从而有效节省USB设备的电能消耗。
Ibexpeak芯片平台的AMT主动管理技术也升级到更先进的6.0版本,AMT 6.0的主要改进在于加入了硬件KVM(Keyboard Video Mouse)控制器,该控制器可以让远程用户直接进行BIOS设定、操作系统安装等工作,甚至在系统崩溃和蓝屏时也能正常运作,远程人员仿佛和维护本机一样方便。
在现行的ICH9和即将发布的ICH10平台中,NAND闪存加速模块都是通过PCI Express总线与系统相连,AMD的SB700南桥则是通过IDE总线与闪存模块挂接——但无论哪一种方案都存在总线转接环节,导致NAND闪存传输效率不高。Ibexpeak芯片直接内置了NAND读写控制器,主板厂商可以将ONFI connector规格的NAND闪存芯片直接集成在主板上,以达到系统加速的目的。而为了进一步降低主板厂商的成本,Ibexpeak芯片内直接内建了ClockChip Buffer,主板厂商不必额外增加一枚BOM芯片,这在同时也有效减少了PCB板的空间占用。
由于ICH10已经彻底抛弃了PCI接口和PS/2键盘鼠标接口,Ibexpeak自然也继承了这一特性,换句话说,我们在Ibexpeak中将看不到任何一点旧有技术的身影。ICH10将集成万兆以太网控制器,Ibexpeak同样也将完整保留。
“Bloomfield”锁定第四季度
首款Nehalem架构处理器将在2008年第四季度推出,它就是代号为“Bloomfield”的四核心处理器。据悉,Bloomfield将采用45纳米工艺生产和原生四核设计,它不再像Yorkfield一样采用双芯片封装的做法;同时,Bloomfield也拥有SMT(Simultaneous Multi-hreading)多线程技术,单颗处理器就可以支持8个线程并行运作。二级缓存方面,Bloomfield采取四核心共享的做法,二级缓存容量为8MB,比Yorkfield的6MB×2规格少了不少,但Bloomfield的二级缓存命中率更高,一定程度上弥补了容量较小的不足。Bloomfield将采用全新的LGA1366插座,芯片整体大小为42.5×45mm,它的散热器设计虽然与目前LGA775的散热方案类似,但却无法做到相互兼容,原因在于Bloomfield的接触面积为80平方毫米,比LGA775的72平方毫米大一些。功耗方面,Bloomfield的最高TDP达到130瓦,必须采用全新的VRM 11.1(Voltage Regulator Module)版本方能满足供电需求——作为一款面向服务器和发烧市场的四核心产品,这样的功耗指标并不算过分。
也许是为了保证良品率和减小新架构产品的技术风险,Bloomfield并没有将内存控制器和PCIExpress 2.0控制器集成,这些功能都由独立的北桥芯片来完成,因此它仍然属于常规的连接架构。与Bloomfield搭配的北桥代号为Tylersburg,该款北桥通过全新QuickPath Interconnect技术与Bloomfield处理器连接——换言之传统的并行FSB总线已被彻底摒弃,点对点的高速串行QuickPath总线取而代之。QuickPath总线可提供与FSB近似的延迟,并且对多线程、LT/VT等技术都作了优化,最高速度达到6.4GTps(每秒传输6.4G次数据),比AMD的HyperTransport 3.0速度快了许多(HyperTransport 3.0最高频率为2.6GTps)。内存支持方面,Tylersburg北桥可支持6组DIMM的三通道DDR3规范,最高可支持到DDR3-1600,内存总容量最高可达24GB——三通道DDR3将系统内存性能提升了一个台阶,而主板PCB布线的难度也非常之高,预计该平台的价格会相当高昂!不过,OEMV商也可以只实现双通道方案以达到降低成本的目的,当然性能也会随之下降。
Tylersburg北桥内建四组PCI-Express 2.0 X8 图形接口,可支持AMD Quad CrossFireX的四卡并联运作,由于PCI Express 2.0规范的数据率达到5GTps,即便是X8规范也能提供双向8GBps的传输带宽,这足以满足下一代旗舰级显卡的需要。此外,Tylersburg亦可支持双X16模式,此时每个图形接口可提供多达16GBps的双向带宽。
Tylersburg将与现行的ICH10南桥配合——ICH10也是英特尔最后一代传统意义的南桥,它的规格相比ICH9并没有大幅度的改动,仍保持6个PCI Express X1接口、4个PCI接口,12个USB 2.0接口及2组EHCI控制器,并支持USB端口禁用功能。硬盘接口方面,ICH10共有6组SATA接口,支持3Gbps、eSATA及Port Disable,Intel MatrixStoragegt术亦并没有任何改动,同样是支援RAID0、1、5、10及Matrix RAID等阵列模式。不过,ICHlO首度加入硬件AH CI技术,成为它的一大卖点。AHCI技术全称为Serial ATA Advanced HostController Interface,这项接口技术由英特尔、AMD、戴尔、Marvell、迈拓、微软、Red Hat、希捷和StorageGear等多家企业联合开发,它可允许存储驱动程序启用高级串行ATA功能,包括NCQ、热插拔等等,不过其最大的用途就是自身具备I/O控制能力,可有效降低I/O操作时的CPU占用率,间接起到改善功耗的作用。
ICH10的唤醒、管理和安全功能都将获得强化,其中标准版和ICH10R支持Corwin Springs唤醒模式,数字办公版ICH10DO则追加Wake OnVOIP模式。管理方面,ICHlOD支持TPM 1.2和AMT 3.x,ICHl0DO则支持更先进的AMT 5.0,加入了大量管理功能。
Bloomfield平台主要针对发烧市场,预计至少包含3个型号,价格则从266美元起跳——如果这个价格最终确定,那么Bloomfield将极富竞争力,这对于AMD可谓是当头一棒!
桌面/移动主流各领风骚
在2009年的第一季度末,英特尔将推出代号为“Lynnfield”的第二款Nehalem架构处理器,与B100mfield不同,Lynnfield将集成内存控制器和PCI Express 2.0控制器,相当于将整个北桥都纳入其中。同样,Lynnfield采用45纳米和原生四核设计,支持SMT多线程技术,搭载8MB容量的二级缓存——Lynnfield的规格与Bloomfield相当接近,二者区别在于Lynnfield只能支持双通道DDR3-1600而非三通道,另外它整合了16个PCI Express 2.0链路,仅可支持1组PCI Express 2.0 X16图形接口或分割为2组PCI Express 2.0 X8使用,同样它也可支持AMD的CrossFireX技术。Lynnfield将采用全新的LGA1160插座,插座尺寸为37.5×37.5毫米,但由于Lynnfield的接触面积达到75平方毫米,略略大于目前的LGA775,因此现有散热平台也无法兼容——如果将它与相同架构的Bloomfield对比,我们发现这二者的插座与散热器方案同样不相同。功耗方面,Lynnfield的TDP功耗也达到95瓦,对于散热系统要求较高。
由于CPU已经将北桥直接集成,Lynnfield处理器就没有采用Quick Path Interconnect技术与I/O芯片(即传统意义上的南桥)连接,而是通过原有的DMI总线,该条总线的最高速度为2GTps,已足以满足I/O芯片的实际需要。
而到2009年第二季度末,英特尔将会带来第三款Nehalem架构的“Havandale”处理器,Havendale将针对主流市场,采用45纳米工艺生产,所不同的是它是第一款Nehalem架构的双核心处理器。Havendale拥有4MB共享二级缓存,相对于Penryn的6MB,Havendale反而有所缩水,这样做显然是为降低成本考虑。Havendale同样将内建双通道内存控制器、PCI Express 2.0图形接口,在此基础上它还直接集成了图形核心——不过这些功能逻辑并非采用原生设计,而是做成一枚单独的芯片,然后将它与CPU封装在一起,这些外围单元与CPU的通讯则是通过Quick Path Interconnect进行。简单点说,Havendale就是将CPU芯片与北桥芯片封装为一个模块,而非真正意义上的集成北桥设计。图形核心方面,Havendale将采用统一渲染架构,拥有12个运算单元,可支持DirectXl0、Shader Model 4.0及OpenGL 2.1,采用全新Unified Shader架构,它的固定功能运算单元从G45的6组提升至8组,具有一个专门负责高清视频解码的CABA C引擎。在该引擎的帮助下,Havendale能够对MPEG2、VC-1及AVC(H.264)等格式的高清视频进行全硬件的解码,支持40Mbps码率的蓝光和HD DVD高清光碟的播放,整体功能完全可满足用户的正常需要。物理设计方面,Havendale同样采用LGA1160插座,与同效能级的Lynnfield处理器相互兼容,但它的最高TDP仅为75瓦。
既然将北桥纳入Havendale封装内,Havendale同样只需要采用一颗I/O南桥即可,这一点也与Lynnfield处理器完全相同,不过,Havendale本身并没有内建视频输出功能,图形核心渲染出的画面必须转由I/O南桥负责输出,因此配套的IbexpeakI/O芯片还内建了Analog(VGA)及Digital(SDVO、HDMI、Display Port及DVI)图像处理单元,HDCPKey也内建于该芯片内,可直接实现HDMI输出。
同样在第二季度末,英特尔将推出Nehalem微架构的移动版本,它们包括四核心的Clarkefield、双核心/内建图形单元的Aubumdalc——不难看出,这两者其实就是Lyrmfield和Havendale的移动版本,只不过功耗大幅度下降以满足笔记本电脑的要求。其中,Clarkefield将有最高TDP 45瓦和55瓦两种版本,前者针对效能级移动平台,后者则针对游戏机型,这样的功耗数字或许让人感到瞠目结舌,但与现行的迅驰平台相差并不算大,因为Clarkefield集成了北桥,而目前迅驰平台的IGP北桥功耗达到12瓦,将其扣除之后CPU部分的TDP功耗降低到33瓦和43瓦,尚属于正常水平。而主流级的Auburndale功耗同样为45瓦,与现行迅驰平台大体相当。
但就这些功耗数字来看,Nehalem移动平台未必能够继续在电池续航力方面保有绝对优势,AMD同时期的移动处理器功耗仅为35瓦,同样内建北桥功能,只要AMD在移动处理器的能源管理机制方面继续加强,那么有望在这一领域超越对手。
Nehalem将带来产业界的洗牌
Nehalem微架构的出现,标志着X86 PC进入到一个崭新的纪元,更高的效能和卓越的效率将捍卫英特尔在X86处理器领域的王者地位,倘若AMD不加速新一代架构的开发步伐,那么将被对手越抛越远。AMD当前可以拿出的应对之策就是借助图形技术的优势,形成平台化的合力——至少在图形领域,英特尔远非AMD的对手,AMD有能力打造包括处理器、芯片组和高端图形技术合一的平台,英特尔就无法做到这一点。
Nehalem的集成北桥设计同样将改变产业界的格局,首先,我们可以肯定第三方芯片组开发商将丢掉饭碗,即便是nVIDIA这样的巨头,在芯片组领域也将没有机会,理由很简单,Nehalem平台只需要一枚I/O芯片,而I/O芯片并不会对整机性能带来多大的影响;其次,Nehalem的主流和移动型号在CPU中集成了图形核心,这意味着nVIDIA将失去整个低端图形市场,只能依靠高端图形技术生存。至于AMD自身也在进行类似的事情,现在我们已经可以看到,主板厂商将AMD自家的芯片组作为首选,nVIDIA日趋遭遇边缘化。
然而,Nehalem微架构也留下了遗憾,至少移动平台的高能耗就是个大问题,英特尔在过去两年都高调宣扬8小时续航力,在主流级的Nehalem移动平台中我们将无法看到这一点,或许它的低功耗、超低功耗版本可以让用户实现这一愿望——或许将长效续航的愿望寄托在电池技术改良上更切合实际。
英特尔将于下半年发布的Nehalem将成为史上第一种称得上完美的架构,Nehalem继承了现行酷睿微架构高指令解码能力的优点,具有更为出色的每瓦性能,同时又糅合了AMD K8所创立的集成内存控制器、芯片间高速直连等思想——AMD为此掀起了一场新的口水仗,认为技术创新先出于己,但这显然经不起深究,因为K8的连接架构实际上是来自RISC体系,早在上个世纪末,IBM的Power 4处理器即采用此项设计。不管怎么说,我们将在Nehalem身上看到一次X86处理器的革命,英特尔平台也将因此进入新的纪元。
Nehalem的技术概要
无论是在处理器设计还是半导体工艺,英特尔都显得更加锐意进取,为了保证市场领先,让对手没有可乘之机,英特尔执行严格的工艺升级和架构更迭道路,英特尔内部将每一次工艺升级都称为一次“Tick”,Tick除了工艺升级外还会对现行的处理器架构进行改良,譬如这次Penryn推出就属于一次Tick:制造工艺从65纳米升级到45纳米,同时Penryn在Core 2 Duo基础上进行改良,包括SSE4指令集引入、二级缓存增加,等等。而每一次微架构更换则称为“Tock”,譬如从NetBurst到Core就是一次Tock,新一轮的Tock便是Nehalem微架构的推出。根据计划,英特尔的每个Tick-Tock周期为两年时间,也就是每隔两年都将推出一次新架构,同时在某种架构推出一年后,将会推出新工艺和改良设计的新产品,这种有序的升级模式可以令英特尔每个年度都有性能更出色的新产品、新平台出现,如果未来AMD无法跟上英特尔的步伐,那么将会被越抛越远。
我们将在2008年第四季度看到Nehalera微架构的推出。在指令解码、执行部分,Nehalem实际上是基于现行的酷睿架构开发,譬如它拥有4条指令并行解码能力,微指令融合、宏指令融合等技术一应俱全——这些方面改进的余地相对有限。指令集部分,Nehalem采用增强版的SSE4.2,它在现行SSE4基础上增加了7条数据库操作相关的新指令,使之可以高效率地处理数据库构建、查询等繁重任务,同时也加快数据传输,可以显著提升数据库服务器的实际性能。另外,Nehalem将支持类似HyperThreading的SMT多线程处理能力,虽然Penryn也具有多线程技术,但Nehalem在该方面的性能可比Penryn高出20%-100%,这主要得益于Nehalem拥有更先进的多线程算法。
Nehalem将支持原生四核设计,这一点也符合今天的潮流,基本上,Nehalem在指令处理方面并没有根本性的变革,但它将酷睿微架构的高效率演绎到极致。Nehalera的革命性更多体现在它引入集成内存控制器设计和名为“QuickPath”的内部互联架构——后者可以同AMD的HyperTransport超传输总线直接类比。内存控制器方面,Nehalem的设计十分恐怖:它首度支持三通道DDR3规范,这意味着Nehalem平台的最高内存带宽将达到32GBps(DDR3-1333),相当于目前GeForce 8600GTS的显存带宽;另外,Nehalem不再对目前的DDR2提供支持,充分体现英特尔激进设计的风范。QuickPath总线也就是原先所说的“CSI”总线,它在功能上与HyperTransport类似,不过英特尔其实是在PCI Express总线基础上开发Quick Path——QuickPath采用点对点设计,每个基本通路包括一个线路对,分别负责数据发送和接收;QuickPath的数据传输频率高达4.8GHz-6.4GHz,这意味着每个线路对的传输速率将达到4.8Gbps-6.4Gbps,由于Nehalem的QuickPath传输包括4条链路,这就意味着QuickPath可以提供24GBps-32GBps的带宽,对于处理器与处理器、处理器与芯片组的数据传输任务而言,这样的带宽数字绰绰有余。
针对服务器的Nehalem处理器将拥有至少4组QuickPath传输,可组成包括4枚处理器的4路服务器系统——由于每颗处理器可包含4颗CPU核心,4路系统将包括16枚运算内核,再加上SMT多线程支持,4路Nehalem系统最多可支持32线程并行运作。英特尔目前未公布Nehalem是否能够支持更多处理器的互联,但以集成内存控制器设计和QuickPath总线设计来看,Nehalem平台理论上可具有媲美AMD K10的扩展弹性,即可以任意多处理器构成集群系统,并且处理器数量可以随意增加和减少,这对于构建高性能集群非常有利。当然要做到这一点,QuickPath总线就必须支持线缆传输,英特尔虽然还未公布QuickPath是否具有这样的能力,但这显然是QuickPath技术的发展方向。
深度改良的微架构、集成内存控制器设计以及QuickPath直连技术,令Nehalem拥有更为出色的执行效率——在单线程、同频率条件下,Nehalem的运算性能比现行Penryn架构提升10%-25%;而在相同功耗下,Nehalem的效能同比上升30%,或者说在相同效能条件下,Nehalem的功耗比Penryn低出30%,整体表现极为优秀!很明显,如果AMD继续打算用K10架构来应对Nehalem,那么将会一败涂地,及时推出可与之匹敌的新一代微架构势在必行。
除了每瓦性能的提升,Nehalem也更加注重运行时的实际功耗表现,譬如它将拥有高度灵活的能源管理机制,可实现类似AMD Griffen移动处理器的供电分离和动态频率管理,这将大幅度降低处理器在闲置条件下的能耗水平。与此同时,Nehalem还将具有一项名为“Turbo Mode”的功能,该功能其实类似于Santa Rosa迅驰平台的IDA(Enhanced DynamicAcceleration),即当系统只执行单线程任务时,将其中的一个核心关闭,另一个核心则自动提高频率,相当于超频运作,达到提高单线程性能的目的。我们不必担心会有功耗过高、CPU过热之类的问题,Turbo Mode自身将根据处理器实际功耗、温度以及规格限制进行IDA运作,确保在安全稳定条件下进行加速,而由于一个核心闲置,另一个核心即便超频运 作,也不会导致CPU功耗超过限定值。
Nehalem平台的I/O中枢
集成内存控制器和QuickPath设计让Nehalem抛弃了沿用多年的“前端总线(FSB)”设计,现在,CPU不必经过“前端总线一北桥一内存总线”的转接才能访问内存,而是直接通过内存控制器就能访问内存资源,访问延迟可以降低50%以上!QuickPath总线则实现了多处理器的直接互联,同样无需再经过FSB。这套连接架构无疑要比传统的方案更为先进,AMD平台过去多年的成功经验也很好地说明了这一点。
不过,Nehalem在集成方面比AMD K10更进了一步,它不仅将内存控制器纳入CPU内部,而且将PCI Express控制器也直接集成(Nehalem的首款产品并未集成这两者),换句话说Nehalem实际上包含了整个北桥。既然如此,未来英特尔的芯片组就将进入单芯片时代,只需由一枚I/O芯片(即传统意义上的南桥)负责与外围设备的通讯,英特尔将该枚芯片称为PCH(Platform ControllerHub),首颗PCH芯片的开发代号为Ibexpeak。
据悉,Ibexpeak将采用65纳米工艺制造,采用28×28FCBGA封装,它的具体规格包括:支持8组PCI Express 2.0 X1接口,比上一代ICH的6组和PCI Express 1.0规范更进了一步,可充分满足系统I/O扩展的需求,支持6组SATA 2.0硬盘接口,其中的Port4及Port5两个端口可支持FIS-basedMulti,Port技术——所谓MultiPort,就是指可以让一个SATA端口连接多块SATA硬盘,该技术共有Command-based switching及FrameInformation Structure(FIS)-based switching两种模式,区别在于Command-based switching只容许一组SATA设备独占所有带宽,其他设备则需要等候该指令完成后才能做出调用,相当于通过时间片划分来管理资源,现行的IC H9南桥便是支持这种模式。与之不同,FIS based switching则允许多个SATA设备同时共享带宽,它的工作效率比Command-based Switching更高,也更能充分发挥出SATA 2.0 3Gbps带宽的优势,不过这种设计比较复杂,要求南桥具有较高的硬件性能,以满足多设备频繁数据传输的要求。USB方面,Ibexpeak支持多达14个USB 2.0接口,并且使用RateMatching Hub取代旧有的UHCI架构,令所有的USB端口均支持HS/FS/LS工作模式,从而有效节省USB设备的电能消耗。
Ibexpeak芯片平台的AMT主动管理技术也升级到更先进的6.0版本,AMT 6.0的主要改进在于加入了硬件KVM(Keyboard Video Mouse)控制器,该控制器可以让远程用户直接进行BIOS设定、操作系统安装等工作,甚至在系统崩溃和蓝屏时也能正常运作,远程人员仿佛和维护本机一样方便。
在现行的ICH9和即将发布的ICH10平台中,NAND闪存加速模块都是通过PCI Express总线与系统相连,AMD的SB700南桥则是通过IDE总线与闪存模块挂接——但无论哪一种方案都存在总线转接环节,导致NAND闪存传输效率不高。Ibexpeak芯片直接内置了NAND读写控制器,主板厂商可以将ONFI connector规格的NAND闪存芯片直接集成在主板上,以达到系统加速的目的。而为了进一步降低主板厂商的成本,Ibexpeak芯片内直接内建了ClockChip Buffer,主板厂商不必额外增加一枚BOM芯片,这在同时也有效减少了PCB板的空间占用。
由于ICH10已经彻底抛弃了PCI接口和PS/2键盘鼠标接口,Ibexpeak自然也继承了这一特性,换句话说,我们在Ibexpeak中将看不到任何一点旧有技术的身影。ICH10将集成万兆以太网控制器,Ibexpeak同样也将完整保留。
“Bloomfield”锁定第四季度
首款Nehalem架构处理器将在2008年第四季度推出,它就是代号为“Bloomfield”的四核心处理器。据悉,Bloomfield将采用45纳米工艺生产和原生四核设计,它不再像Yorkfield一样采用双芯片封装的做法;同时,Bloomfield也拥有SMT(Simultaneous Multi-hreading)多线程技术,单颗处理器就可以支持8个线程并行运作。二级缓存方面,Bloomfield采取四核心共享的做法,二级缓存容量为8MB,比Yorkfield的6MB×2规格少了不少,但Bloomfield的二级缓存命中率更高,一定程度上弥补了容量较小的不足。Bloomfield将采用全新的LGA1366插座,芯片整体大小为42.5×45mm,它的散热器设计虽然与目前LGA775的散热方案类似,但却无法做到相互兼容,原因在于Bloomfield的接触面积为80平方毫米,比LGA775的72平方毫米大一些。功耗方面,Bloomfield的最高TDP达到130瓦,必须采用全新的VRM 11.1(Voltage Regulator Module)版本方能满足供电需求——作为一款面向服务器和发烧市场的四核心产品,这样的功耗指标并不算过分。
也许是为了保证良品率和减小新架构产品的技术风险,Bloomfield并没有将内存控制器和PCIExpress 2.0控制器集成,这些功能都由独立的北桥芯片来完成,因此它仍然属于常规的连接架构。与Bloomfield搭配的北桥代号为Tylersburg,该款北桥通过全新QuickPath Interconnect技术与Bloomfield处理器连接——换言之传统的并行FSB总线已被彻底摒弃,点对点的高速串行QuickPath总线取而代之。QuickPath总线可提供与FSB近似的延迟,并且对多线程、LT/VT等技术都作了优化,最高速度达到6.4GTps(每秒传输6.4G次数据),比AMD的HyperTransport 3.0速度快了许多(HyperTransport 3.0最高频率为2.6GTps)。内存支持方面,Tylersburg北桥可支持6组DIMM的三通道DDR3规范,最高可支持到DDR3-1600,内存总容量最高可达24GB——三通道DDR3将系统内存性能提升了一个台阶,而主板PCB布线的难度也非常之高,预计该平台的价格会相当高昂!不过,OEMV商也可以只实现双通道方案以达到降低成本的目的,当然性能也会随之下降。
Tylersburg北桥内建四组PCI-Express 2.0 X8 图形接口,可支持AMD Quad CrossFireX的四卡并联运作,由于PCI Express 2.0规范的数据率达到5GTps,即便是X8规范也能提供双向8GBps的传输带宽,这足以满足下一代旗舰级显卡的需要。此外,Tylersburg亦可支持双X16模式,此时每个图形接口可提供多达16GBps的双向带宽。
Tylersburg将与现行的ICH10南桥配合——ICH10也是英特尔最后一代传统意义的南桥,它的规格相比ICH9并没有大幅度的改动,仍保持6个PCI Express X1接口、4个PCI接口,12个USB 2.0接口及2组EHCI控制器,并支持USB端口禁用功能。硬盘接口方面,ICH10共有6组SATA接口,支持3Gbps、eSATA及Port Disable,Intel MatrixStoragegt术亦并没有任何改动,同样是支援RAID0、1、5、10及Matrix RAID等阵列模式。不过,ICHlO首度加入硬件AH CI技术,成为它的一大卖点。AHCI技术全称为Serial ATA Advanced HostController Interface,这项接口技术由英特尔、AMD、戴尔、Marvell、迈拓、微软、Red Hat、希捷和StorageGear等多家企业联合开发,它可允许存储驱动程序启用高级串行ATA功能,包括NCQ、热插拔等等,不过其最大的用途就是自身具备I/O控制能力,可有效降低I/O操作时的CPU占用率,间接起到改善功耗的作用。
ICH10的唤醒、管理和安全功能都将获得强化,其中标准版和ICH10R支持Corwin Springs唤醒模式,数字办公版ICH10DO则追加Wake OnVOIP模式。管理方面,ICHlOD支持TPM 1.2和AMT 3.x,ICHl0DO则支持更先进的AMT 5.0,加入了大量管理功能。
Bloomfield平台主要针对发烧市场,预计至少包含3个型号,价格则从266美元起跳——如果这个价格最终确定,那么Bloomfield将极富竞争力,这对于AMD可谓是当头一棒!
桌面/移动主流各领风骚
在2009年的第一季度末,英特尔将推出代号为“Lynnfield”的第二款Nehalem架构处理器,与B100mfield不同,Lynnfield将集成内存控制器和PCI Express 2.0控制器,相当于将整个北桥都纳入其中。同样,Lynnfield采用45纳米和原生四核设计,支持SMT多线程技术,搭载8MB容量的二级缓存——Lynnfield的规格与Bloomfield相当接近,二者区别在于Lynnfield只能支持双通道DDR3-1600而非三通道,另外它整合了16个PCI Express 2.0链路,仅可支持1组PCI Express 2.0 X16图形接口或分割为2组PCI Express 2.0 X8使用,同样它也可支持AMD的CrossFireX技术。Lynnfield将采用全新的LGA1160插座,插座尺寸为37.5×37.5毫米,但由于Lynnfield的接触面积达到75平方毫米,略略大于目前的LGA775,因此现有散热平台也无法兼容——如果将它与相同架构的Bloomfield对比,我们发现这二者的插座与散热器方案同样不相同。功耗方面,Lynnfield的TDP功耗也达到95瓦,对于散热系统要求较高。
由于CPU已经将北桥直接集成,Lynnfield处理器就没有采用Quick Path Interconnect技术与I/O芯片(即传统意义上的南桥)连接,而是通过原有的DMI总线,该条总线的最高速度为2GTps,已足以满足I/O芯片的实际需要。
而到2009年第二季度末,英特尔将会带来第三款Nehalem架构的“Havandale”处理器,Havendale将针对主流市场,采用45纳米工艺生产,所不同的是它是第一款Nehalem架构的双核心处理器。Havendale拥有4MB共享二级缓存,相对于Penryn的6MB,Havendale反而有所缩水,这样做显然是为降低成本考虑。Havendale同样将内建双通道内存控制器、PCI Express 2.0图形接口,在此基础上它还直接集成了图形核心——不过这些功能逻辑并非采用原生设计,而是做成一枚单独的芯片,然后将它与CPU封装在一起,这些外围单元与CPU的通讯则是通过Quick Path Interconnect进行。简单点说,Havendale就是将CPU芯片与北桥芯片封装为一个模块,而非真正意义上的集成北桥设计。图形核心方面,Havendale将采用统一渲染架构,拥有12个运算单元,可支持DirectXl0、Shader Model 4.0及OpenGL 2.1,采用全新Unified Shader架构,它的固定功能运算单元从G45的6组提升至8组,具有一个专门负责高清视频解码的CABA C引擎。在该引擎的帮助下,Havendale能够对MPEG2、VC-1及AVC(H.264)等格式的高清视频进行全硬件的解码,支持40Mbps码率的蓝光和HD DVD高清光碟的播放,整体功能完全可满足用户的正常需要。物理设计方面,Havendale同样采用LGA1160插座,与同效能级的Lynnfield处理器相互兼容,但它的最高TDP仅为75瓦。
既然将北桥纳入Havendale封装内,Havendale同样只需要采用一颗I/O南桥即可,这一点也与Lynnfield处理器完全相同,不过,Havendale本身并没有内建视频输出功能,图形核心渲染出的画面必须转由I/O南桥负责输出,因此配套的IbexpeakI/O芯片还内建了Analog(VGA)及Digital(SDVO、HDMI、Display Port及DVI)图像处理单元,HDCPKey也内建于该芯片内,可直接实现HDMI输出。
同样在第二季度末,英特尔将推出Nehalem微架构的移动版本,它们包括四核心的Clarkefield、双核心/内建图形单元的Aubumdalc——不难看出,这两者其实就是Lyrmfield和Havendale的移动版本,只不过功耗大幅度下降以满足笔记本电脑的要求。其中,Clarkefield将有最高TDP 45瓦和55瓦两种版本,前者针对效能级移动平台,后者则针对游戏机型,这样的功耗数字或许让人感到瞠目结舌,但与现行的迅驰平台相差并不算大,因为Clarkefield集成了北桥,而目前迅驰平台的IGP北桥功耗达到12瓦,将其扣除之后CPU部分的TDP功耗降低到33瓦和43瓦,尚属于正常水平。而主流级的Auburndale功耗同样为45瓦,与现行迅驰平台大体相当。
但就这些功耗数字来看,Nehalem移动平台未必能够继续在电池续航力方面保有绝对优势,AMD同时期的移动处理器功耗仅为35瓦,同样内建北桥功能,只要AMD在移动处理器的能源管理机制方面继续加强,那么有望在这一领域超越对手。
Nehalem将带来产业界的洗牌
Nehalem微架构的出现,标志着X86 PC进入到一个崭新的纪元,更高的效能和卓越的效率将捍卫英特尔在X86处理器领域的王者地位,倘若AMD不加速新一代架构的开发步伐,那么将被对手越抛越远。AMD当前可以拿出的应对之策就是借助图形技术的优势,形成平台化的合力——至少在图形领域,英特尔远非AMD的对手,AMD有能力打造包括处理器、芯片组和高端图形技术合一的平台,英特尔就无法做到这一点。
Nehalem的集成北桥设计同样将改变产业界的格局,首先,我们可以肯定第三方芯片组开发商将丢掉饭碗,即便是nVIDIA这样的巨头,在芯片组领域也将没有机会,理由很简单,Nehalem平台只需要一枚I/O芯片,而I/O芯片并不会对整机性能带来多大的影响;其次,Nehalem的主流和移动型号在CPU中集成了图形核心,这意味着nVIDIA将失去整个低端图形市场,只能依靠高端图形技术生存。至于AMD自身也在进行类似的事情,现在我们已经可以看到,主板厂商将AMD自家的芯片组作为首选,nVIDIA日趋遭遇边缘化。
然而,Nehalem微架构也留下了遗憾,至少移动平台的高能耗就是个大问题,英特尔在过去两年都高调宣扬8小时续航力,在主流级的Nehalem移动平台中我们将无法看到这一点,或许它的低功耗、超低功耗版本可以让用户实现这一愿望——或许将长效续航的愿望寄托在电池技术改良上更切合实际。