延续Ｃｏｒｅ架构的辉煌—４７ｎｍ　Ｐｅｎｒｙｎ处理器提前解析

来源 :微型计算机 | 被引量 : 0次 | 上传用户：vuip

【摘要】

：

【作者】

：

王　翔　郭士榕

【出处】

：

微型计算机

【发表日期】

：

2007年16期

【关键词】

：

英特尔晶体管处理器制程指令架构

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　回顾英特尔在近10年当中所推出的处理器架构：P6、NetBurst和Core三大架构显得尤为重要。稍有资历的朋友可能对PentlumPro、PentiumⅡ和PentiumⅢ仍记忆犹新，这三款处理器同属于P6架构，P6架构的表现还算令人满意。在随后的2000年，英特尔推出了让其饱受困扰的NetBurst架构，虽然在该架构中引入了SSE2/SSE3指令集和Hyper-Threading超线程等技术，但并不能有效解决处理器指令效能低下的状况。就在英特尔想方设法通过提高前端总线频率、增加二级缓存容量并使用更先进的工艺制程提高NetBursc架构性能的时候，AMD 64架构凭借众多优势从英特尔手中夺取了大量市场份额。在吸取了经验教训之后，英特尔重新找到了正确的发展方向——Core架构放弃了NetBurt遵循的“频率至上”原则，转而由全新的“每瓦性能”所取代。基于Core架构的产品不仅在桌面市场大放异彩，在作为英特尔当前工作重心之一的移动领域，Core架构处理器也逐步发展壮大。
　　近日英特尔对外公布了最新的第二季度财务报表。报表数据显示，英特尔净收入13亿美金，同比增长了47％，每股盈利增长22％，超过了此前业内人士的预期。在大好形势之下，英特尔并不会就此满足，为了应对AMD即将发布的K10处理器，英特尔将在明年第一季度推出新一代45nm处理器——Penryn，更先进的工艺制程、更加完善的指令集和改进的Core架构令广大DIYer充满期待。需要说明的是，我们所说的Penryn实际上是移动平台中45nm处理器的代号，而桌面平台中诸如双核Wolfdale处理器和四核Yorkfield处理器都是由Penryn衍生而来。接下来我们就看看Penryn究竟有何不同吧。
　　
　　先进的45nm制程
　　
　　Penryn处理器是英特尔首款使用45nm制程生产的产品。就在45nm制程取得阶段性成果的时候，英特尔核心人物戈登·摩尔就称赞到“High—K栅介质和金属栅极晶体管是自上世纪60年代晚期推出多晶栅极金属氧化物半导体晶体管以来，晶体管技术领域里最大的突破”。而在今年IDF北京论坛上，英特尔技术与制造事业部的马博院士也表示，45nm制程是英特尔40年来在半导体领域的最大突破之一。
　　我们所说的45nm制程通常是指一种工艺尺寸，也就是指芯片上最基本的功能单元门电路与门电路之间连线的宽度。提升工艺制程不但可以提高产品集成度、降低产品成本，还能降低产品功耗。英特尔表示，45nm制程带来了晶体管密度2倍的提升、晶体管切换速度提升20％、功耗却更小。
　　正是由于45nm制程的应用，才能使四核Penryn在8.2亿只晶体管的规模下芯片面积仅有107mm2，相比之下，英特尔当前65nm四核处理器核心面积达到了143mm²，制程改进的作用可见一斑。
　　
　　英特尔45nm制程的ig项最关键的技术——High—K栅介质与金属栅极。
　　
　　第一项关键技术是使用High—K材料取代了沿用多年的二氧化硅。与应变硅技术加速晶体管内电流速度相反，在不同晶体管之间，我们需要绝缘以避免泄漏的问题。在90nm制程之前，泄漏问题并不算十分严重，但转换到90nm制程之后，不同晶体管的间距变得非常短，电流泄漏现象变得异常严重。为了抵消泄漏的电流，芯片不得不需要更大的供电量，造成的直接后果就是芯片功耗增加。在65nm制程上，IBM和AMD采用了SOI技术来隔断各电极向衬底流动的漏电流，使其只能通过晶体管流动，但SOI技术对于同一层面的晶体管之间的阻隔效果并不理想。因此High—K材料就走进了科学家们的视线——High-K材料电子泄漏的阻隔效果比二氧化硅强很多，于是英特尔决定使用High-K材料来制造晶体管的栅极。High—K材料对电子泄漏的阻隔效果可以达到传统材料二氧化硅的数百倍，电子泄漏基本被阻断，就算是在绝缘层厚度降低到0.1nm尺寸仍然具有较好的电子隔绝效果，这样就在缩小制程的同时控制住了功耗。
　　第二项关键技术是使用金属类材料取代现有的多晶硅。多晶硅作为最为基层的导体，由于其电阻较大，所以整个晶体管迟延周期也比较大。如果采用导电率较高的金属类材料栅电极，能彻底解决栅极的这个问题——金属材料电阻较小。遗憾的是，由于商业机密等原因，英特尔并没有透露该金属材料具体内容，我们只知道针对NMOS与PMOS金属栅极采用了不同类型的金属材料。
　　
　　新一代SSE4指令集
　　
　　“硬件是基础，软件是灵魂。”这句话在处理器中得到了很好的体现。现有处理器都采用了极其复杂的大规模集成电路设计，集成了上亿只晶体管。如此高科技的精密电子器件怎样来控制?指令集作为处理器的灵魂，其设计优劣直接影响着整体性能和稳定性。因此，在处理器硬件电路设计之初就会开始考虑指令集。优秀的指令集不仅可以简化硬件电路的设计，而且还可以充分挖掘硬件的潜能。指令集对于处理器来说重要性不言而喻。
　　Penryn处理器在原有优秀的SSE3指令集的基础之上引入了全新SSE4(StreamingSIMD Extension 4，单指令多数据流扩展4)指令集。早在去年秋季IDF上，英特尔就公布了SSE4指令集，不过只是含糊地说明，直到在今年春季IDF北京，英特尔才公布了更为详细的指令细节说明。但是，在Penryn中使用的只是SSE4.1(47条指令)，而下一代Nehalem处理器才会用到完整的SSE4.2(54条指令)。无论是英特尔本身还是业内都寄予SSE4厚望，也正因为如此，英特尔称之为“SSE4是自SSE2以来，最大规模也是最有影响的一次指令集扩展”。
　　在Penryn中应用的SSE4.1指令集可以分为三类：第一类是视频加速指令，共14条；第二类是图形构建优化指令，共32条；最后一类是数据流加载指令。视频加速指令中包含改进型的SAD运算、水平化的最小值搜索以及整型数据的格式转换等指令，这些指令对多媒体应用有很大的帮助。相关数据表明，在软件支持的情况下使用它们能将原来的视频解码时间减少一半!而在图形构建优化指令方面，包含了压缩整型数据的最大最小值查找、压缩的双字数据乘法、四字数据的比较以及数据的插人和提取、浮点数的小数点产生等指令，这些指令尤其在图形处理以及2D、3D等游戏方面表现突出。而数据流加载指令可以加快USWC内存的读取速度以及与SSE2相关指令结合来加快内存映射IO设备(MMIO，Memory-Mapped IO)的速度。总的来说，英特尔SSE4指令集的推出将继续巩固其业内领先技术的地位。
　　
　　基于Core架构的改良
　　
　　除了引入45nm制程和SSE4指令集以外，Penryn处理器在Core 架构的基础上进行了多项改进。
　　Penryn处理器前端总线规格的提升可能是大家最为熟悉的改进Z-一。由于Penryn运行频率相对于现有Core 2系列处理器有所提高(部分型号的工作频率将超过3.0GHz)，所以必须相应地提升前端总线频率。基于Penryn的Xeon和顶级桌面处理器的前端总线将高达1600MHz，而主流桌面处理器和移动芯片的前端总线将会提高到1333MHz。
　　在二级缓存容量上，Penryn也有所提升——双核Penryn具有6MB二级缓存，四核Penryn更将拥有12MB二级缓存(Penryn的一款低端版本二级缓存容量只有3MB)。除了二级缓存容量提升以外，Penryn还具备增强的高速缓存行分离负载(EnhancedCache Line SplitLoads)技术。我们知道，当数据被读取的时候，数据一部分在一个高速缓存行中，而另外一部分在其他缓存行中，此时便会发生分离负载。这里我们需要指出的是，高速缓存行并不等同于高速缓存——在高速缓存中，为了便于地址映射与交换，会将高速缓存与主内存分成大小相同的行，高速缓存行的大小都会大于一个处理器指令的长度。从实际研究表明，从两个高速缓存行中读取一个数据要比从一个高速缓存行中读取慢数个时钟周期，而引入高速缓存行分离负载技术以后，将有效解决分离负载数据的读取问题，这将提高音频/视频/图片编辑与游戏等内存密集型虚用程序的运行速度。
　　超级乱序执行引擎(Super ShuffleEngme)也是Penryn改进之一。这项改进可以使得SSE4指令的运算具有更高的效率。在以前，处理器在执行诸如Unpacking、Pack等指令时，都无法在一个周期内完成。但应用超级乱序执行引擎以后，可以让这些不同种类的128位SSE指令都可以在一个周期内完成，将SSE执行效率提高几乎一倍。此外，超级乱序执行引擎不需要对软件端做任何改进，不会带来软件的兼容性问题。
　　Penryn还改进了先前的除法运算器。全新的Radix—16除法运算器大大增加了数据处理能力。粗略估计，经过此项改进，Penryn在科学计算、3D处理等应用方面有两倍左右的性能提升。
　　
　　更深层次的节能技术
　　
　　虽然Penryn在45nm制程的帮助下控制住了功耗，但为了进一步扩大“战果”，Penryn还引入了两项用于降低功耗的新技术——Deep Power Down和Enhanced Dynamic Acceleration。
　　在原先的Core架构中，处理器具有4种状态：CO为正常状态，C2、C3及C4则为不同的省电模式，Deep Power Down技术为Penryn引入了更深层次的节电状态C6。新的C6状态除了降低处理器核心频率以外，还会关闭所有的高速缓存单元，高速缓存单元中的数据则将会被转移。可能有人会问，如果处理器进入C6状态的话，那么在恢复时应该有一个被转移数据重新调入高速缓存的过程?不错，尽管状态的转换会浪费几个周期，延长了唤醒时间，但为了降低功耗这仍然是值得的。
　　而Enhanced Dynamic Acceleration则是应用于移动平台的节能技术。众所周知，目前很多应用软件并未针对双核和多核进行优化，实际运行单线程的情况经常发生。在Enhanced DynamicAcceleration技术的帮助下，当双核或多核处理器在运行单线程应用程序的时候，那么就只有一个核心会处于工作状态并动态超频，其它核心将被调整为C3模式下：如此一来，虽然处理器工作频率有所提高，但整体功耗仍有一定程度下降。不仅如此，当处理器运行多线程应用程序时，Enhanced Dynamic Acceleration技术能够根据核心的具体负荷度对其工作频率进行动态调整，以尽可能地降低功耗。
　　
　　Penryn的性能有多强?
　　
　　在今年IDF北京论坛上，英特尔展示了Penryn工程样品的测试，我们或许能从中一探其真实性能。测试对比平台采用的是3.33GHz四核Penryn(1.33GHz前段总线)与2.93GHz QX6800(1.06GHz前端总线)。在Cinebench XCPU测试中，3.33GHz四核Penryn的性能比QX6800N出20％以上；而在游戏性能测试时，Penryn的性能要高28％以上；Penryn的视频编码性能也有21％的提升。功耗方面Penryn并没有因为性能的提升而大幅度增加，桌面版本Penryn TDP仍然很好的保持了65Wo虽然这些数据来自Intel官方，只具有一定的参考价值，但我们可以肯定的是Penryn将比酷睿2处理器更加优秀。
　　
　　结语
　　
　　凭借45nm制程、SSE4指令集、更大的二级缓存和更好的节能技术等，Penryn处理器无疑将会进一步发挥出Core架构的优势。在官方测试中我们可以看到，Penryn处理器相比酷睿2处理器的性能有明显的提升，并很好地控制了处理器功耗和发热量。因此可以说，Penryn完全有能力延续Core架构的辉煌，进一步巩固英特尔在桌面/移动/服务器三大市场的领先地位，甚至逐步收复这几年丢掉的市场份额。但对于普通用户而言，Penryn处理器的大规模上市还要等到明年第二、三季度，如果现阶段有购机的需求，也没必要为Penryn二等待毕竟现在的酷睿2处理器已经能很好地满足绝大多数应用了。

其他文献

告别失焦

由于目前数码相机的架构局限，在拍摄高速运动物体或多主体间距离较大等特殊场景时，失焦、跑焦的现象随处可见。因为数码相机镜头是通过中央的透镜聚焦光线，并投射到光传感器上成像，拍出的照片只有一个焦点，所以其清晰成像的距离有一定范围，只有焦点部分是清晰的，而背景部分由于不在焦点范围内而变得模糊。为了获得更大的景深，我们只有将光圈调得更小。对于在室外光线条件好的情况下，这样做还是能解决一些问题，但如果是在拍

期刊

相机光线焦点照片镜头清晰

１０８Ｍ＋的无线网络Ｖｓ．１００Ｍ的有线网络，哪个更快？

同一时间上网的人一多，路由器接人速度的问题就非常突出了。有人建议买一台无线路由器，理由是价格也不贵，支持108Mbps的高速路由器才300元出头，使用无线路由器还可以保持宿舍的整洁(不至于搞成盘丝洞)；另外一些人则坚持用有线网络才是王道，100Mbps的局域网(LAN)各种设备都已经是非常成熟，而且价格也不贵，唯一的缺点就是把宿舍搞得乱一些……本来是宿舍的“内部矛盾”，结果因为隔壁宿舍的同学也想“

期刊

无线网络传输速度速度理论值就会标准

谁是背包族的最佳伴侣

随着七天长假被更多的三天短假所替代，成群结队背着行囊四处旅行的人越来越多，这些人也就是常说的“背包族”。背包族们大多为自助游，和组团旅游不同的是没有专职的导游负责全程指引，迷路无疑常令人头疼。其实要解决这个问题并不难，只需配备一台GPS就能获得专业的导航指引。面对市场上形形色色的个人GPS产品，又该选谁呢？　　　　为何要为背包族挑产品？　　　　从去年开始，MC先后介绍了数十款各种价位、特色的市售主

期刊

的是用户功能软件产品行者

绿色进行时

新制程处理器的功耗不断降低；平板电视已成功取代传统CRT电视而大为普及；动辄播放时间长达数十小时的MP3播放器被广泛使用……人们都觉得现在的IT产品比昔日省电多了，这么说没错！那么节能就不再需要我们花更多精力去关注了，但事实是这样吗？　　我们不能以点概面，被表象所迷惑。单个来看，如今IT产品的功耗的确降低了不少，但我们似乎忘记了它们的使用量也已远超被它们所替代的产品，如果在它们耗电量上加上一个“亿

期刊

功耗处理器频率英特尔技术电压

我们的绿色地球，从你开始

自从上世纪90年代PC开始在全世界范围内慢慢普及开来，人们的生活已经在PC的帮助下发生了翻天覆地的变化。事实上，PC已经成为了目前大多数人工作生活所必须依赖的东西。就在我们尽情享受PC给我们生活带来便利和各种乐趣的时候，它却在悄悄地改变着我们的大自然!　　打开机箱盖子，你能看到什么?硬件!是的，处理器，显卡、内存、硬盘、主板、电源，再加上单独的显示器。它们悄然改变着我们的生活，但是同时，它们也悄然

期刊

电脑地球重金属厂商功耗环境

现代“荣御”ＨＹ－２００８（韩国版）音箱赏析

它携“荣誉”的谐音而来，透过奖杯造型与火焰图案诠释着时尚。当我们抢先拿到现代“荣御”HY-2008(韩国版)音箱时，不禁眼前一亮。　　获知这款产品的信息，最早是在2007年年末。当时它甚至还没定名，对于它的了解，也仅限于几张最初的效果草图。不过就第一眼的感觉来说，我们对它是充满期待的。因为我们预感到，不久以后沉闷的2.1多媒体音箱市场会因为它的出现而被注入新的活力。半年多以来，我们多次与现代音响设

期刊

韩国荣御这款音箱线控器造型

靓声又养眼

For Music Desifign麦博梵高FC3602代　　　　麦博梵高FC360曾经是市场中口碑较好的一款2.1音箱。现在我们所见到的第2代产品，除了外观调整得更加时尚之外，还提升了制造工艺，整体看起来更为精美。麦博梵高FC360 2代是一款“F0r Music Design”的独立功放产品，其功放电路在前一代产品的基础上针对回放效果又做了改善，并提升了抗干扰能力。在扬声器方面，梵高FC360

期刊

梵高扬声器低频效果麦博低音

高端内存的新选择

目前，采用英特尔P35芯片组的主板已经大量上市尽管P35芯片组的官方规格最高只支持DDR2 600内存但大部分一线厂商都推出了支持DDR2 1066内存的P35主板以满足超频玩家的需求。而为了充分发挥这类平台的性能当然应该搭配1066MHz内存。由于并非每条DDR2 800内存都能成功地稳定运行在1066MHz下因此市场上便出现了DDR2 1066这种非JEDEC标准的内存，亿能XTUNE内存就是

期刊

内存超频英飞凌性能品牌芯片组

高清＝画质＋音频

高清播放首选HTPC　　　　除了高清解码能力的提升之外，HTPC相比两年前已经有了相当大的变化。处理器性能进一步提升，功耗明显下降，而且价格也下降得相当快。目前，一套2000左右的HTPC平台已经能够游刃有余地处理各种高清视频格式。因此，在蓝光播放器降价、蓝光影碟普及之前，HTPC已经成为最值得选购的高清视频播放设备。　　HTPC的性能提升，主要表现在是否支持高清视频硬件加速上，这方面往往是用户最

期刊

音频功放接口音频输出声道多声道

最亲民的发烧主板

一线主板厂商的高端P35主板超频能力强，用料扎实、功能丰富，设计优秀，但是价格多在2000元上下，普通消费者难以接受。不过，高端主板并不是一线厂商的专利，部分二线厂商也为消费者带来了价格实惠、功能丰富的新选择，比如捷波智尊系列、双敏狙击手系列，还有本文介绍的七彩虹C.P35 X5主板。　　七彩虹的C.P35 X5主板采用了时下流行的热管散热设计，非常有卖相，并拥有智能网克、数据保护、网络管理在内的

期刊

主板超频七彩虹功能价格步进

延续Ｃｏｒｅ架构的辉煌—４７ｎｍ Ｐｅｎｒｙｎ处理器提前解析

与本文相关的学术论文

延续Ｃｏｒｅ架构的辉煌—４７ｎｍ　Ｐｅｎｒｙｎ处理器提前解析