论文部分内容阅读
回顾英特尔在近10年当中所推出的处理器架构:P6、NetBurst和Core三大架构显得尤为重要。稍有资历的朋友可能对PentlumPro、PentiumⅡ和PentiumⅢ仍记忆犹新,这三款处理器同属于P6架构,P6架构的表现还算令人满意。在随后的2000年,英特尔推出了让其饱受困扰的NetBurst架构,虽然在该架构中引入了SSE2/SSE3指令集和Hyper-Threading超线程等技术,但并不能有效解决处理器指令效能低下的状况。就在英特尔想方设法通过提高前端总线频率、增加二级缓存容量并使用更先进的工艺制程提高NetBursc架构性能的时候,AMD 64架构凭借众多优势从英特尔手中夺取了大量市场份额。在吸取了经验教训之后,英特尔重新找到了正确的发展方向——Core架构放弃了NetBurt遵循的“频率至上”原则,转而由全新的“每瓦性能”所取代。基于Core架构的产品不仅在桌面市场大放异彩,在作为英特尔当前工作重心之一的移动领域,Core架构处理器也逐步发展壮大。
近日英特尔对外公布了最新的第二季度财务报表。报表数据显示,英特尔净收入13亿美金,同比增长了47%,每股盈利增长22%,超过了此前业内人士的预期。在大好形势之下,英特尔并不会就此满足,为了应对AMD即将发布的K10处理器,英特尔将在明年第一季度推出新一代45nm处理器——Penryn,更先进的工艺制程、更加完善的指令集和改进的Core架构令广大DIYer充满期待。需要说明的是,我们所说的Penryn实际上是移动平台中45nm处理器的代号,而桌面平台中诸如双核Wolfdale处理器和四核Yorkfield处理器都是由Penryn衍生而来。接下来我们就看看Penryn究竟有何不同吧。
先进的45nm制程
Penryn处理器是英特尔首款使用45nm制程生产的产品。就在45nm制程取得阶段性成果的时候,英特尔核心人物戈登·摩尔就称赞到“High—K栅介质和金属栅极晶体管是自上世纪60年代晚期推出多晶栅极金属氧化物半导体晶体管以来,晶体管技术领域里最大的突破”。而在今年IDF北京论坛上,英特尔技术与制造事业部的马博院士也表示,45nm制程是英特尔40年来在半导体领域的最大突破之一。
我们所说的45nm制程通常是指一种工艺尺寸,也就是指芯片上最基本的功能单元门电路与门电路之间连线的宽度。提升工艺制程不但可以提高产品集成度、降低产品成本,还能降低产品功耗。英特尔表示,45nm制程带来了晶体管密度2倍的提升、晶体管切换速度提升20%、功耗却更小。
正是由于45nm制程的应用,才能使四核Penryn在8.2亿只晶体管的规模下芯片面积仅有107mm2,相比之下,英特尔当前65nm四核处理器核心面积达到了143mm2,制程改进的作用可见一斑。
英特尔45nm制程的ig项最关键的技术——High—K栅介质与金属栅极。
第一项关键技术是使用High—K材料取代了沿用多年的二氧化硅。与应变硅技术加速晶体管内电流速度相反,在不同晶体管之间,我们需要绝缘以避免泄漏的问题。在90nm制程之前,泄漏问题并不算十分严重,但转换到90nm制程之后,不同晶体管的间距变得非常短,电流泄漏现象变得异常严重。为了抵消泄漏的电流,芯片不得不需要更大的供电量,造成的直接后果就是芯片功耗增加。在65nm制程上,IBM和AMD采用了SOI技术来隔断各电极向衬底流动的漏电流,使其只能通过晶体管流动,但SOI技术对于同一层面的晶体管之间的阻隔效果并不理想。因此High—K材料就走进了科学家们的视线——High-K材料电子泄漏的阻隔效果比二氧化硅强很多,于是英特尔决定使用High-K材料来制造晶体管的栅极。High—K材料对电子泄漏的阻隔效果可以达到传统材料二氧化硅的数百倍,电子泄漏基本被阻断,就算是在绝缘层厚度降低到0.1nm尺寸仍然具有较好的电子隔绝效果,这样就在缩小制程的同时控制住了功耗。
第二项关键技术是使用金属类材料取代现有的多晶硅。多晶硅作为最为基层的导体,由于其电阻较大,所以整个晶体管迟延周期也比较大。如果采用导电率较高的金属类材料栅电极,能彻底解决栅极的这个问题——金属材料电阻较小。遗憾的是,由于商业机密等原因,英特尔并没有透露该金属材料具体内容,我们只知道针对NMOS与PMOS金属栅极采用了不同类型的金属材料。
新一代SSE4指令集
“硬件是基础,软件是灵魂。”这句话在处理器中得到了很好的体现。现有处理器都采用了极其复杂的大规模集成电路设计,集成了上亿只晶体管。如此高科技的精密电子器件怎样来控制?指令集作为处理器的灵魂,其设计优劣直接影响着整体性能和稳定性。因此,在处理器硬件电路设计之初就会开始考虑指令集。优秀的指令集不仅可以简化硬件电路的设计,而且还可以充分挖掘硬件的潜能。指令集对于处理器来说重要性不言而喻。
Penryn处理器在原有优秀的SSE3指令集的基础之上引入了全新SSE4(StreamingSIMD Extension 4,单指令多数据流扩展4)指令集。早在去年秋季IDF上,英特尔就公布了SSE4指令集,不过只是含糊地说明,直到在今年春季IDF北京,英特尔才公布了更为详细的指令细节说明。但是,在Penryn中使用的只是SSE4.1(47条指令),而下一代Nehalem处理器才会用到完整的SSE4.2(54条指令)。无论是英特尔本身还是业内都寄予SSE4厚望,也正因为如此,英特尔称之为“SSE4是自SSE2以来,最大规模也是最有影响的一次指令集扩展”。
在Penryn中应用的SSE4.1指令集可以分为三类:第一类是视频加速指令,共14条;第二类是图形构建优化指令,共32条;最后一类是数据流加载指令。视频加速指令中包含改进型的SAD运算、水平化的最小值搜索以及整型数据的格式转换等指令,这些指令对多媒体应用有很大的帮助。相关数据表明,在软件支持的情况下使用它们能将原来的视频解码时间减少一半!而在图形构建优化指令方面,包含了压缩整型数据的最大最小值查找、压缩的双字数据乘法、四字数据的比较以及数据的插人和提取、浮点数的小数点产生等指令,这些指令尤其在图形处理以及2D、3D等游戏方面表现突出。而数据流加载指令可以加快USWC内存的读取速度以及与SSE2相关指令结合来加快内存映射IO设备(MMIO,Memory-Mapped IO)的速度。总的来说,英特尔SSE4指令集的推出将继续巩固其业内领先技术的地位。
基于Core架构的改良
除了引入45nm制程和SSE4指令集以外,Penryn处理器在Core 架构的基础上进行了多项改进。
Penryn处理器前端总线规格的提升可能是大家最为熟悉的改进Z-一。由于Penryn运行频率相对于现有Core 2系列处理器有所提高(部分型号的工作频率将超过3.0GHz),所以必须相应地提升前端总线频率。基于Penryn的Xeon和顶级桌面处理器的前端总线将高达1600MHz,而主流桌面处理器和移动芯片的前端总线将会提高到1333MHz。
在二级缓存容量上,Penryn也有所提升——双核Penryn具有6MB二级缓存,四核Penryn更将拥有12MB二级缓存(Penryn的一款低端版本二级缓存容量只有3MB)。除了二级缓存容量提升以外,Penryn还具备增强的高速缓存行分离负载(EnhancedCache Line SplitLoads)技术。我们知道,当数据被读取的时候,数据一部分在一个高速缓存行中,而另外一部分在其他缓存行中,此时便会发生分离负载。这里我们需要指出的是,高速缓存行并不等同于高速缓存——在高速缓存中,为了便于地址映射与交换,会将高速缓存与主内存分成大小相同的行,高速缓存行的大小都会大于一个处理器指令的长度。从实际研究表明,从两个高速缓存行中读取一个数据要比从一个高速缓存行中读取慢数个时钟周期,而引入高速缓存行分离负载技术以后,将有效解决分离负载数据的读取问题,这将提高音频/视频/图片编辑与游戏等内存密集型虚用程序的运行速度。
超级乱序执行引擎(Super ShuffleEngme)也是Penryn改进之一。这项改进可以使得SSE4指令的运算具有更高的效率。在以前,处理器在执行诸如Unpacking、Pack等指令时,都无法在一个周期内完成。但应用超级乱序执行引擎以后,可以让这些不同种类的128位SSE指令都可以在一个周期内完成,将SSE执行效率提高几乎一倍。此外,超级乱序执行引擎不需要对软件端做任何改进,不会带来软件的兼容性问题。
Penryn还改进了先前的除法运算器。全新的Radix—16除法运算器大大增加了数据处理能力。粗略估计,经过此项改进,Penryn在科学计算、3D处理等应用方面有两倍左右的性能提升。
更深层次的节能技术
虽然Penryn在45nm制程的帮助下控制住了功耗,但为了进一步扩大“战果”,Penryn还引入了两项用于降低功耗的新技术——Deep Power Down和Enhanced Dynamic Acceleration。
在原先的Core架构中,处理器具有4种状态:CO为正常状态,C2、C3及C4则为不同的省电模式,Deep Power Down技术为Penryn引入了更深层次的节电状态C6。新的C6状态除了降低处理器核心频率以外,还会关闭所有的高速缓存单元,高速缓存单元中的数据则将会被转移。可能有人会问,如果处理器进入C6状态的话,那么在恢复时应该有一个被转移数据重新调入高速缓存的过程?不错,尽管状态的转换会浪费几个周期,延长了唤醒时间,但为了降低功耗这仍然是值得的。
而Enhanced Dynamic Acceleration则是应用于移动平台的节能技术。众所周知,目前很多应用软件并未针对双核和多核进行优化,实际运行单线程的情况经常发生。在Enhanced DynamicAcceleration技术的帮助下,当双核或多核处理器在运行单线程应用程序的时候,那么就只有一个核心会处于工作状态并动态超频,其它核心将被调整为C3模式下:如此一来,虽然处理器工作频率有所提高,但整体功耗仍有一定程度下降。不仅如此,当处理器运行多线程应用程序时,Enhanced Dynamic Acceleration技术能够根据核心的具体负荷度对其工作频率进行动态调整,以尽可能地降低功耗。
Penryn的性能有多强?
在今年IDF北京论坛上,英特尔展示了Penryn工程样品的测试,我们或许能从中一探其真实性能。测试对比平台采用的是3.33GHz四核Penryn(1.33GHz前段总线)与2.93GHz QX6800(1.06GHz前端总线)。在Cinebench XCPU测试中,3.33GHz四核Penryn的性能比QX6800N出20%以上;而在游戏性能测试时,Penryn的性能要高28%以上;Penryn的视频编码性能也有21%的提升。功耗方面Penryn并没有因为性能的提升而大幅度增加,桌面版本Penryn TDP仍然很好的保持了65Wo虽然这些数据来自Intel官方,只具有一定的参考价值,但我们可以肯定的是Penryn将比酷睿2处理器更加优秀。
结语
凭借45nm制程、SSE4指令集、更大的二级缓存和更好的节能技术等,Penryn处理器无疑将会进一步发挥出Core架构的优势。在官方测试中我们可以看到,Penryn处理器相比酷睿2处理器的性能有明显的提升,并很好地控制了处理器功耗和发热量。因此可以说,Penryn完全有能力延续Core架构的辉煌,进一步巩固英特尔在桌面/移动/服务器三大市场的领先地位,甚至逐步收复这几年丢掉的市场份额。但对于普通用户而言,Penryn处理器的大规模上市还要等到明年第二、三季度,如果现阶段有购机的需求,也没必要为Penryn二等待毕竟现在的酷睿2处理器已经能很好地满足绝大多数应用了。
近日英特尔对外公布了最新的第二季度财务报表。报表数据显示,英特尔净收入13亿美金,同比增长了47%,每股盈利增长22%,超过了此前业内人士的预期。在大好形势之下,英特尔并不会就此满足,为了应对AMD即将发布的K10处理器,英特尔将在明年第一季度推出新一代45nm处理器——Penryn,更先进的工艺制程、更加完善的指令集和改进的Core架构令广大DIYer充满期待。需要说明的是,我们所说的Penryn实际上是移动平台中45nm处理器的代号,而桌面平台中诸如双核Wolfdale处理器和四核Yorkfield处理器都是由Penryn衍生而来。接下来我们就看看Penryn究竟有何不同吧。
先进的45nm制程
Penryn处理器是英特尔首款使用45nm制程生产的产品。就在45nm制程取得阶段性成果的时候,英特尔核心人物戈登·摩尔就称赞到“High—K栅介质和金属栅极晶体管是自上世纪60年代晚期推出多晶栅极金属氧化物半导体晶体管以来,晶体管技术领域里最大的突破”。而在今年IDF北京论坛上,英特尔技术与制造事业部的马博院士也表示,45nm制程是英特尔40年来在半导体领域的最大突破之一。
我们所说的45nm制程通常是指一种工艺尺寸,也就是指芯片上最基本的功能单元门电路与门电路之间连线的宽度。提升工艺制程不但可以提高产品集成度、降低产品成本,还能降低产品功耗。英特尔表示,45nm制程带来了晶体管密度2倍的提升、晶体管切换速度提升20%、功耗却更小。
正是由于45nm制程的应用,才能使四核Penryn在8.2亿只晶体管的规模下芯片面积仅有107mm2,相比之下,英特尔当前65nm四核处理器核心面积达到了143mm2,制程改进的作用可见一斑。
英特尔45nm制程的ig项最关键的技术——High—K栅介质与金属栅极。
第一项关键技术是使用High—K材料取代了沿用多年的二氧化硅。与应变硅技术加速晶体管内电流速度相反,在不同晶体管之间,我们需要绝缘以避免泄漏的问题。在90nm制程之前,泄漏问题并不算十分严重,但转换到90nm制程之后,不同晶体管的间距变得非常短,电流泄漏现象变得异常严重。为了抵消泄漏的电流,芯片不得不需要更大的供电量,造成的直接后果就是芯片功耗增加。在65nm制程上,IBM和AMD采用了SOI技术来隔断各电极向衬底流动的漏电流,使其只能通过晶体管流动,但SOI技术对于同一层面的晶体管之间的阻隔效果并不理想。因此High—K材料就走进了科学家们的视线——High-K材料电子泄漏的阻隔效果比二氧化硅强很多,于是英特尔决定使用High-K材料来制造晶体管的栅极。High—K材料对电子泄漏的阻隔效果可以达到传统材料二氧化硅的数百倍,电子泄漏基本被阻断,就算是在绝缘层厚度降低到0.1nm尺寸仍然具有较好的电子隔绝效果,这样就在缩小制程的同时控制住了功耗。
第二项关键技术是使用金属类材料取代现有的多晶硅。多晶硅作为最为基层的导体,由于其电阻较大,所以整个晶体管迟延周期也比较大。如果采用导电率较高的金属类材料栅电极,能彻底解决栅极的这个问题——金属材料电阻较小。遗憾的是,由于商业机密等原因,英特尔并没有透露该金属材料具体内容,我们只知道针对NMOS与PMOS金属栅极采用了不同类型的金属材料。
新一代SSE4指令集
“硬件是基础,软件是灵魂。”这句话在处理器中得到了很好的体现。现有处理器都采用了极其复杂的大规模集成电路设计,集成了上亿只晶体管。如此高科技的精密电子器件怎样来控制?指令集作为处理器的灵魂,其设计优劣直接影响着整体性能和稳定性。因此,在处理器硬件电路设计之初就会开始考虑指令集。优秀的指令集不仅可以简化硬件电路的设计,而且还可以充分挖掘硬件的潜能。指令集对于处理器来说重要性不言而喻。
Penryn处理器在原有优秀的SSE3指令集的基础之上引入了全新SSE4(StreamingSIMD Extension 4,单指令多数据流扩展4)指令集。早在去年秋季IDF上,英特尔就公布了SSE4指令集,不过只是含糊地说明,直到在今年春季IDF北京,英特尔才公布了更为详细的指令细节说明。但是,在Penryn中使用的只是SSE4.1(47条指令),而下一代Nehalem处理器才会用到完整的SSE4.2(54条指令)。无论是英特尔本身还是业内都寄予SSE4厚望,也正因为如此,英特尔称之为“SSE4是自SSE2以来,最大规模也是最有影响的一次指令集扩展”。
在Penryn中应用的SSE4.1指令集可以分为三类:第一类是视频加速指令,共14条;第二类是图形构建优化指令,共32条;最后一类是数据流加载指令。视频加速指令中包含改进型的SAD运算、水平化的最小值搜索以及整型数据的格式转换等指令,这些指令对多媒体应用有很大的帮助。相关数据表明,在软件支持的情况下使用它们能将原来的视频解码时间减少一半!而在图形构建优化指令方面,包含了压缩整型数据的最大最小值查找、压缩的双字数据乘法、四字数据的比较以及数据的插人和提取、浮点数的小数点产生等指令,这些指令尤其在图形处理以及2D、3D等游戏方面表现突出。而数据流加载指令可以加快USWC内存的读取速度以及与SSE2相关指令结合来加快内存映射IO设备(MMIO,Memory-Mapped IO)的速度。总的来说,英特尔SSE4指令集的推出将继续巩固其业内领先技术的地位。
基于Core架构的改良
除了引入45nm制程和SSE4指令集以外,Penryn处理器在Core 架构的基础上进行了多项改进。
Penryn处理器前端总线规格的提升可能是大家最为熟悉的改进Z-一。由于Penryn运行频率相对于现有Core 2系列处理器有所提高(部分型号的工作频率将超过3.0GHz),所以必须相应地提升前端总线频率。基于Penryn的Xeon和顶级桌面处理器的前端总线将高达1600MHz,而主流桌面处理器和移动芯片的前端总线将会提高到1333MHz。
在二级缓存容量上,Penryn也有所提升——双核Penryn具有6MB二级缓存,四核Penryn更将拥有12MB二级缓存(Penryn的一款低端版本二级缓存容量只有3MB)。除了二级缓存容量提升以外,Penryn还具备增强的高速缓存行分离负载(EnhancedCache Line SplitLoads)技术。我们知道,当数据被读取的时候,数据一部分在一个高速缓存行中,而另外一部分在其他缓存行中,此时便会发生分离负载。这里我们需要指出的是,高速缓存行并不等同于高速缓存——在高速缓存中,为了便于地址映射与交换,会将高速缓存与主内存分成大小相同的行,高速缓存行的大小都会大于一个处理器指令的长度。从实际研究表明,从两个高速缓存行中读取一个数据要比从一个高速缓存行中读取慢数个时钟周期,而引入高速缓存行分离负载技术以后,将有效解决分离负载数据的读取问题,这将提高音频/视频/图片编辑与游戏等内存密集型虚用程序的运行速度。
超级乱序执行引擎(Super ShuffleEngme)也是Penryn改进之一。这项改进可以使得SSE4指令的运算具有更高的效率。在以前,处理器在执行诸如Unpacking、Pack等指令时,都无法在一个周期内完成。但应用超级乱序执行引擎以后,可以让这些不同种类的128位SSE指令都可以在一个周期内完成,将SSE执行效率提高几乎一倍。此外,超级乱序执行引擎不需要对软件端做任何改进,不会带来软件的兼容性问题。
Penryn还改进了先前的除法运算器。全新的Radix—16除法运算器大大增加了数据处理能力。粗略估计,经过此项改进,Penryn在科学计算、3D处理等应用方面有两倍左右的性能提升。
更深层次的节能技术
虽然Penryn在45nm制程的帮助下控制住了功耗,但为了进一步扩大“战果”,Penryn还引入了两项用于降低功耗的新技术——Deep Power Down和Enhanced Dynamic Acceleration。
在原先的Core架构中,处理器具有4种状态:CO为正常状态,C2、C3及C4则为不同的省电模式,Deep Power Down技术为Penryn引入了更深层次的节电状态C6。新的C6状态除了降低处理器核心频率以外,还会关闭所有的高速缓存单元,高速缓存单元中的数据则将会被转移。可能有人会问,如果处理器进入C6状态的话,那么在恢复时应该有一个被转移数据重新调入高速缓存的过程?不错,尽管状态的转换会浪费几个周期,延长了唤醒时间,但为了降低功耗这仍然是值得的。
而Enhanced Dynamic Acceleration则是应用于移动平台的节能技术。众所周知,目前很多应用软件并未针对双核和多核进行优化,实际运行单线程的情况经常发生。在Enhanced DynamicAcceleration技术的帮助下,当双核或多核处理器在运行单线程应用程序的时候,那么就只有一个核心会处于工作状态并动态超频,其它核心将被调整为C3模式下:如此一来,虽然处理器工作频率有所提高,但整体功耗仍有一定程度下降。不仅如此,当处理器运行多线程应用程序时,Enhanced Dynamic Acceleration技术能够根据核心的具体负荷度对其工作频率进行动态调整,以尽可能地降低功耗。
Penryn的性能有多强?
在今年IDF北京论坛上,英特尔展示了Penryn工程样品的测试,我们或许能从中一探其真实性能。测试对比平台采用的是3.33GHz四核Penryn(1.33GHz前段总线)与2.93GHz QX6800(1.06GHz前端总线)。在Cinebench XCPU测试中,3.33GHz四核Penryn的性能比QX6800N出20%以上;而在游戏性能测试时,Penryn的性能要高28%以上;Penryn的视频编码性能也有21%的提升。功耗方面Penryn并没有因为性能的提升而大幅度增加,桌面版本Penryn TDP仍然很好的保持了65Wo虽然这些数据来自Intel官方,只具有一定的参考价值,但我们可以肯定的是Penryn将比酷睿2处理器更加优秀。
结语
凭借45nm制程、SSE4指令集、更大的二级缓存和更好的节能技术等,Penryn处理器无疑将会进一步发挥出Core架构的优势。在官方测试中我们可以看到,Penryn处理器相比酷睿2处理器的性能有明显的提升,并很好地控制了处理器功耗和发热量。因此可以说,Penryn完全有能力延续Core架构的辉煌,进一步巩固英特尔在桌面/移动/服务器三大市场的领先地位,甚至逐步收复这几年丢掉的市场份额。但对于普通用户而言,Penryn处理器的大规模上市还要等到明年第二、三季度,如果现阶段有购机的需求,也没必要为Penryn二等待毕竟现在的酷睿2处理器已经能很好地满足绝大多数应用了。