论文部分内容阅读
多核与其说是一场CPU革命,倒不如说是一种过渡性的改良,而且这种改良的瓶颈已见
风向变了:人们再不用主频这个指标来谈CPU了,现在要谈的是——几个核心?
4月9日,英特尔发布旗下第四款四核心处理器Core 2 Extreme QX6800。
要80个核心的也有。在此前举行的一次论坛上,英特尔甚至还向外界展示了运算性能可以达到每秒万亿(Teraflop)级的80核心处理器原型,这种运算能力已经达到了大型机的水平。要知道,直到1996年,人类才首次在超级计算机上突破万亿次大关。
英特尔在全球市场最大的竞争对手AMD公司,也准备在今年年中正式发布四核X86处理器“Barcelona”。
在中国国内,3月28日,中国科学院计算所也宣布,“龙芯”(中国首个有自主知识产权的通用CPU)计划在三年内,即先于英特尔,推出业内首个采用65纳米工艺、具有16个核心的“龙芯三号”处理器。
然而,多核之路,至少到现在为止,在很多人看来,仍然是一场相当勉强的革命。它能真正经受得住时间的考验吗?
速度为王
1971年,英特尔推出的全球第一颗通用型微处理器4004,由2300个晶体管构成。当时,公司的联合创始人之一戈登摩尔(Gordon Moore),就提出后来被业界奉为信条的“摩尔定律”——每过18个月,芯片上可以集成的晶体管数目将增加一倍。
在一块芯片上集成的晶体管数目越多,意味着运算速度即主频就更快。今天英特尔的奔腾(Pentium)四至尊版840处理器,晶体管数量已经增加至2.5亿个,相比当年的4004增加了10万倍。其主频也从最初的740kHz(每秒钟可进行74万次运算),增长到现在的3GHz(每秒钟运算30亿次)以上。
当然,CPU主频的提高,或许在一定程度上也要归功于1975年进入这个领域的AMD公司的挑战。正是这样的“双雄会”,使得众多计算机用户有机会享受不断上演的“速度与激情”。一些仍不满足的发烧友甚至选择了自己超频,因为在玩很多游戏时,更快的速度可以带来额外的饕餮享受。
但到了2005年,当主频接近4GHz时,英特尔和AMD发现,速度也会遇到自己的极限:那就是单纯的主频提升,已经无法明显提升系统整体性能。
以英特尔发布的采用NetBurst架构的奔腾四CPU为例,它包括Willamette、Northwood和Prescott等三种采用不同核心的产品。利用冗长的运算流水线,即增加每个时钟周期同时执行的运算个数,就达到较高的主频。
这三种处理器的最高频率,分别达到了2.0G、3.4G和3.8G。
按照当时的预测,奔腾四在该架构下,最终可以把主频提高到10GHz。但由于流水线过长,使得单位频率效能低下,加上由于缓存的增加和漏电流控制不利造成功耗大幅度增加,3.6GHz奔腾四芯片在性能上反而还不如早些时推出的3.4GHz产品。所以,Prescott产品系列只达到3.8G,就戛然而止。
英特尔上海公司一位工程师在接受记者采访时表示,Netburst微架构的好处在于方便提升频率,可以让产品的主频非常高。但性能提升并不明显,频率提高50%,性能提升可能微不足道。因为Netburst微架构的效率较低,CPU计算资源未被充分利用,就像开车时“边踩刹车边踩油门”。
此外,随着功率增大,散热问题也越来越成为一个无法逾越的障碍。据测算,主频每增加1G,功耗将上升25瓦,而在芯片功耗超过150瓦后,现有的风冷散热系统将无法满足散热的需要。3.4GHz的奔腾四至尊版,晶体管达1.78亿个,最高功耗已达135瓦。
实际上,在奔腾四推出后不久,就在批评家那里获得了“电炉”的美称。更有好事者用它来玩煎蛋的游戏。
很显然,当晶体管数量增加导致功耗增长超过性能增长速度后,处理器的可靠性就会受到致命性的影响。就连戈登摩尔本人似乎也依稀看到了“主频为王”这条路的尽头——2005年4月,他曾公开表示,引领半导体市场接近40年的“摩尔定律”,在未来10年至20年内可能失效。
一些人比摩尔更加悲观一些。早在三年前,处理器市场分析公司Insight 64的分析师纳森布鲁克伍德(Nathan Brookwood)就表示“主频已死”,在他看来,所有的好东西都是有始有终的,这次也不能例外。
2006年10月,英特尔正式宣布取消4GHz奔腾四处理器的开发计划;AMD也表示,其2.8GHz的Athlon FX57,将在很长一段时间内,是主频最高的产品。
另辟蹊径
多核心CPU解决方案(多核)的出现,似乎给人带来了新的希望。
所谓核心,就是指CPU中心隆起的芯片,这也是所有的计算、接受/存储命令、处理数据的执行中心。
多核CPU技术,是在同一个硅晶片上集成了多个独立物理核心,在实际工作中,多颗核心协同工作,以达到性能倍增的目的。每个核心都具有独立的逻辑结构,包括一二级缓存、执行单元、指令级单元和总线接口等逻辑单元。
“多核是在目前功耗限制下,能找到的最好的提升芯片性能的方法。这种方法允许每个核心可以在相对节能的方式下运行,并通过牺牲单个核心的运算速度,提高芯片整体上的性能表现。”布鲁克伍德告诉《财经》记者。
早在上世纪90年代末,就有众多业界人士呼吁用CMP(单芯片多处理器)技术来替代复杂性较高的单线程CPU。IBM、惠普、Sun等高端服务器厂商,更是相继推出了多核服务器CPU。不过,由于服务器价格高、应用面窄,并未引起大众广泛的注意。
直到AMD抢先手推出64位处理器后,英特尔才想起利用“多核”这一武器进行“帝国反击战”。2005年4月,英特尔仓促推出简单封装双核的奔腾D和奔腾四至尊版840。AMD在之后也发布了双核皓龙(Opteron)和速龙(Athlon) 64 X2和处理器。
但真正的“双核元年”,则被认为是2006年。
这一年的7月23日,英特尔基于酷睿(Core)架构的处理器正式发布。2006年11月,又推出面向服务器、工作站和高端个人电脑的至强(Xeon)5300和酷睿二四核至尊版系列处理器。
与上一代台式机处理器相比,酷睿二双核处理器在性能方面提高40%,功耗反而降低40%。
作为回应,7月24日,AMD也宣布对旗下的双核Athlon64 X2处理器进行大降价。
由于功耗已成为用户在性能之外所考虑的首要因素,两大处理器巨头都在宣传多核处理器时,强调其“节能”效果。英特尔已发布了功耗仅为50瓦的低电压版四核至强处理器。而据AMD高层透露,即将发布的“Barcelona”四核处理器,功耗将不会超过95瓦。
在英特尔高级副总裁帕特基辛格(Pat Gelsinger)看来,从单核到双核,再到多核的发展,证明了摩尔定律还是非常正确的,因为“从单核到双核,再到多核的发展,可能是摩尔定律问世以来,在芯片发展历史上速度最快的性能提升过程”。
但也许并不是所有人都准备给“多核”这么高的评价。
美国国家科学院院士大卫科克(David Kirk)就曾公开表示,CPU制造商所使用的多线程和多核心技术,看起来好像是使CPU的性能加倍,但从本质上说,并不能解决CPU主频提升以及制造工艺的瓶颈。而对于游戏开发人员来说,也形如鸡肋,“多核CPU乃黔驴技穷之作”。
“多核毫无疑问是一个趋势,但也是个不得已的选择。”中国科学院计算所研究员、国家智能计算机中心主任孙凝辉也对《财经》记者表示,多核从技术上没有革命性的进步,它实质上只是在模拟大型机在过去30年走过的并行道路而已,只不过这次做到了芯片内部。
目前,多核心技术在应用上的优势有两个方面:为用户带来更强大的计算性能;更重要的,则是可满足用户同时进行多任务处理和多任务计算环境的要求。两大巨头都给消费者描绘出了使用多核处理器在执行多项任务时的美妙前景:同时可以检查邮件、刻录CD、修改照片、剪辑视频,并且同时可以运行杀毒软件。或者利用同一台电脑,父亲在查看财务报表,女儿在打游戏,母亲在给远方的朋友打网络电话。
但并不是所有家庭只有一台电脑,也不是所有用户都要用电脑一下子做那么多事,更何况目前的大部分应用程序还并不能自动分割成多任务,分别交给多个核心去执行。
所以,对于大多数用户来说,多核所带来的实际益处,很可能并不明显。
而多核所带来的挑战,或者说麻烦,却是实实在在的。美国卡内基梅隆大学计算机系教授朗道布赖恩特(Randal E Bryant)在接受《财经》记者采访时就坦称,“这给软件业制造了巨大的问题”。
软硬失衡
布赖恩特直言不讳地指出,要想让多核完全发挥效力,需要硬件业和软件业更多革命性的更新。其中,可编程性是多核处理器面临的最大问题。一旦核心多过八个,就需要执行程序能够并行处理。尽管在并行计算上,人类已经探索了超过40年,但编写、调试、优化并行处理程序的能力还非常弱。
易观国际分析师李也认为,“出于技术的挑战,双核甚至多核处理器被强加给了产业,而产业却并没有事先做好准备”。
或许正是出于对这种失衡的担心,中国国家智能计算机中心主任孙凝辉告诉《财经》记者,“十年以后,多核这条道路可能就到头了”。在他看来,一味增加并行的处理单元是行不通的。并行计算机的发展历史表明,并行粒度超过100以后,程序就很难写,能做到128个以上的应用程序很少。CPU到了100个核以上后,现在并行计算机系统遇到的问题,在CPU一样会存在。
“如果解决不了主流应用并行化的问题,主流CPU发展到100个核就到头了。现在还不知道什么样的革命性的进展能解决这些问题。”孙补充说。
实际上,市场研究公司In-Stat分析师吉姆克雷格(Jim McGregor)就承认,虽然英特尔已向外界展示了80核处理器原型,但尴尬的是,目前还没有能够利用这一处理器的操作系统。
中科院软件所并行计算实验室副主任张云泉也持类似的观点。他对《财经》记者表示,这个问题实际一直就存在,但原来在超级计算机上才会遇到,所以,讨论也多局限在学术界。而现在,所有用户都要面对这样的问题。
新的契机?
3月29日,英特尔向外界透露,其全球第一个45纳米工艺“Penryn”处理器生产线已经投产,包括低电压版的双内核笔记本处理器,还有双内核和四内核版的台式机和服务器处理器。
按照计划,这些产品将从今年下半年开始上市销售。有评论认为,其跨越程度可以与1996年从486到奔腾处理器类比。业内人士分析,“Penryn”实际上是65纳米工艺的“酷睿”系列处理器的45纳米版本。
从现在的产品路线看,一个全新的概念正在被英特尔反复强调——性能功耗比(Performance/Watt)。这或许意味着,目前英特尔发展CPU的战略正在从只重视生产工艺的提升,不断加入晶体管的“粗犷型”向“集约型”转变,就是以“好的架构设计,先进的生产工艺”,来逐步提升性能、降低功耗。
在布赖恩特教授看来,除继续增加核数,应该可以有很多其他方法来提升芯片的性能,比如用高速网络链接加快核之间的通讯,用更好的方法实现缓存和处理器间的通信。否则,就算是核心跑得再快,数据从处理器的高速进出或在处理器间传送不够快的话,再多的计算能力也无济于事。
对于中国的芯片制造者来说,目前两大处理器巨头所遭遇的瓶颈,也许不失为一个机会。
“现在英特尔和AMD再也不能重复以前的老路了,用户对他们的新产品也跟得不那么紧了。这个时候,也许中国企业就有机会了。”
孙凝辉对《财经》记者解释说,把努力方向转到降低功耗、价格上,也是“摩尔定律的另一条线。”而在降低价格从而争夺市场方面,中国企业一向不乏成功的先例。
但CPU在技术上是已经到达了顶点,还是遭遇到了暂时的瓶颈?这仍然是一个有争议的话题。这方面,Insight 64的分析师纳森布鲁克伍德显然是位乐观主义者。
的确,今天有很多人确信,从原子的尺度或者量子效应的制约来看,目前的芯片业在十年内就将到达物理上的顶点。但他提醒说,不要忘记在10年甚至20年前,我们很多人也是这么认为的(在十年内将达到顶点)。
虽然量子计算机走向实用可能还需要几十年的时间,但此外可能的探索,还包括分子计算机、化学计算机以及DNA计算机,“每当业界感觉到极限时,总是会有聪明的科学家想到其他的办法。”纳森布鲁克伍德对《财经》记者说。
风向变了:人们再不用主频这个指标来谈CPU了,现在要谈的是——几个核心?
4月9日,英特尔发布旗下第四款四核心处理器Core 2 Extreme QX6800。
要80个核心的也有。在此前举行的一次论坛上,英特尔甚至还向外界展示了运算性能可以达到每秒万亿(Teraflop)级的80核心处理器原型,这种运算能力已经达到了大型机的水平。要知道,直到1996年,人类才首次在超级计算机上突破万亿次大关。
英特尔在全球市场最大的竞争对手AMD公司,也准备在今年年中正式发布四核X86处理器“Barcelona”。
在中国国内,3月28日,中国科学院计算所也宣布,“龙芯”(中国首个有自主知识产权的通用CPU)计划在三年内,即先于英特尔,推出业内首个采用65纳米工艺、具有16个核心的“龙芯三号”处理器。
然而,多核之路,至少到现在为止,在很多人看来,仍然是一场相当勉强的革命。它能真正经受得住时间的考验吗?
速度为王
1971年,英特尔推出的全球第一颗通用型微处理器4004,由2300个晶体管构成。当时,公司的联合创始人之一戈登摩尔(Gordon Moore),就提出后来被业界奉为信条的“摩尔定律”——每过18个月,芯片上可以集成的晶体管数目将增加一倍。
在一块芯片上集成的晶体管数目越多,意味着运算速度即主频就更快。今天英特尔的奔腾(Pentium)四至尊版840处理器,晶体管数量已经增加至2.5亿个,相比当年的4004增加了10万倍。其主频也从最初的740kHz(每秒钟可进行74万次运算),增长到现在的3GHz(每秒钟运算30亿次)以上。
当然,CPU主频的提高,或许在一定程度上也要归功于1975年进入这个领域的AMD公司的挑战。正是这样的“双雄会”,使得众多计算机用户有机会享受不断上演的“速度与激情”。一些仍不满足的发烧友甚至选择了自己超频,因为在玩很多游戏时,更快的速度可以带来额外的饕餮享受。
但到了2005年,当主频接近4GHz时,英特尔和AMD发现,速度也会遇到自己的极限:那就是单纯的主频提升,已经无法明显提升系统整体性能。
以英特尔发布的采用NetBurst架构的奔腾四CPU为例,它包括Willamette、Northwood和Prescott等三种采用不同核心的产品。利用冗长的运算流水线,即增加每个时钟周期同时执行的运算个数,就达到较高的主频。
这三种处理器的最高频率,分别达到了2.0G、3.4G和3.8G。
按照当时的预测,奔腾四在该架构下,最终可以把主频提高到10GHz。但由于流水线过长,使得单位频率效能低下,加上由于缓存的增加和漏电流控制不利造成功耗大幅度增加,3.6GHz奔腾四芯片在性能上反而还不如早些时推出的3.4GHz产品。所以,Prescott产品系列只达到3.8G,就戛然而止。
英特尔上海公司一位工程师在接受记者采访时表示,Netburst微架构的好处在于方便提升频率,可以让产品的主频非常高。但性能提升并不明显,频率提高50%,性能提升可能微不足道。因为Netburst微架构的效率较低,CPU计算资源未被充分利用,就像开车时“边踩刹车边踩油门”。
此外,随着功率增大,散热问题也越来越成为一个无法逾越的障碍。据测算,主频每增加1G,功耗将上升25瓦,而在芯片功耗超过150瓦后,现有的风冷散热系统将无法满足散热的需要。3.4GHz的奔腾四至尊版,晶体管达1.78亿个,最高功耗已达135瓦。
实际上,在奔腾四推出后不久,就在批评家那里获得了“电炉”的美称。更有好事者用它来玩煎蛋的游戏。
很显然,当晶体管数量增加导致功耗增长超过性能增长速度后,处理器的可靠性就会受到致命性的影响。就连戈登摩尔本人似乎也依稀看到了“主频为王”这条路的尽头——2005年4月,他曾公开表示,引领半导体市场接近40年的“摩尔定律”,在未来10年至20年内可能失效。
一些人比摩尔更加悲观一些。早在三年前,处理器市场分析公司Insight 64的分析师纳森布鲁克伍德(Nathan Brookwood)就表示“主频已死”,在他看来,所有的好东西都是有始有终的,这次也不能例外。
2006年10月,英特尔正式宣布取消4GHz奔腾四处理器的开发计划;AMD也表示,其2.8GHz的Athlon FX57,将在很长一段时间内,是主频最高的产品。
另辟蹊径
多核心CPU解决方案(多核)的出现,似乎给人带来了新的希望。
所谓核心,就是指CPU中心隆起的芯片,这也是所有的计算、接受/存储命令、处理数据的执行中心。
多核CPU技术,是在同一个硅晶片上集成了多个独立物理核心,在实际工作中,多颗核心协同工作,以达到性能倍增的目的。每个核心都具有独立的逻辑结构,包括一二级缓存、执行单元、指令级单元和总线接口等逻辑单元。
“多核是在目前功耗限制下,能找到的最好的提升芯片性能的方法。这种方法允许每个核心可以在相对节能的方式下运行,并通过牺牲单个核心的运算速度,提高芯片整体上的性能表现。”布鲁克伍德告诉《财经》记者。
早在上世纪90年代末,就有众多业界人士呼吁用CMP(单芯片多处理器)技术来替代复杂性较高的单线程CPU。IBM、惠普、Sun等高端服务器厂商,更是相继推出了多核服务器CPU。不过,由于服务器价格高、应用面窄,并未引起大众广泛的注意。
直到AMD抢先手推出64位处理器后,英特尔才想起利用“多核”这一武器进行“帝国反击战”。2005年4月,英特尔仓促推出简单封装双核的奔腾D和奔腾四至尊版840。AMD在之后也发布了双核皓龙(Opteron)和速龙(Athlon) 64 X2和处理器。
但真正的“双核元年”,则被认为是2006年。
这一年的7月23日,英特尔基于酷睿(Core)架构的处理器正式发布。2006年11月,又推出面向服务器、工作站和高端个人电脑的至强(Xeon)5300和酷睿二四核至尊版系列处理器。
与上一代台式机处理器相比,酷睿二双核处理器在性能方面提高40%,功耗反而降低40%。
作为回应,7月24日,AMD也宣布对旗下的双核Athlon64 X2处理器进行大降价。
由于功耗已成为用户在性能之外所考虑的首要因素,两大处理器巨头都在宣传多核处理器时,强调其“节能”效果。英特尔已发布了功耗仅为50瓦的低电压版四核至强处理器。而据AMD高层透露,即将发布的“Barcelona”四核处理器,功耗将不会超过95瓦。
在英特尔高级副总裁帕特基辛格(Pat Gelsinger)看来,从单核到双核,再到多核的发展,证明了摩尔定律还是非常正确的,因为“从单核到双核,再到多核的发展,可能是摩尔定律问世以来,在芯片发展历史上速度最快的性能提升过程”。
但也许并不是所有人都准备给“多核”这么高的评价。
美国国家科学院院士大卫科克(David Kirk)就曾公开表示,CPU制造商所使用的多线程和多核心技术,看起来好像是使CPU的性能加倍,但从本质上说,并不能解决CPU主频提升以及制造工艺的瓶颈。而对于游戏开发人员来说,也形如鸡肋,“多核CPU乃黔驴技穷之作”。
“多核毫无疑问是一个趋势,但也是个不得已的选择。”中国科学院计算所研究员、国家智能计算机中心主任孙凝辉也对《财经》记者表示,多核从技术上没有革命性的进步,它实质上只是在模拟大型机在过去30年走过的并行道路而已,只不过这次做到了芯片内部。
目前,多核心技术在应用上的优势有两个方面:为用户带来更强大的计算性能;更重要的,则是可满足用户同时进行多任务处理和多任务计算环境的要求。两大巨头都给消费者描绘出了使用多核处理器在执行多项任务时的美妙前景:同时可以检查邮件、刻录CD、修改照片、剪辑视频,并且同时可以运行杀毒软件。或者利用同一台电脑,父亲在查看财务报表,女儿在打游戏,母亲在给远方的朋友打网络电话。
但并不是所有家庭只有一台电脑,也不是所有用户都要用电脑一下子做那么多事,更何况目前的大部分应用程序还并不能自动分割成多任务,分别交给多个核心去执行。
所以,对于大多数用户来说,多核所带来的实际益处,很可能并不明显。
而多核所带来的挑战,或者说麻烦,却是实实在在的。美国卡内基梅隆大学计算机系教授朗道布赖恩特(Randal E Bryant)在接受《财经》记者采访时就坦称,“这给软件业制造了巨大的问题”。
软硬失衡
布赖恩特直言不讳地指出,要想让多核完全发挥效力,需要硬件业和软件业更多革命性的更新。其中,可编程性是多核处理器面临的最大问题。一旦核心多过八个,就需要执行程序能够并行处理。尽管在并行计算上,人类已经探索了超过40年,但编写、调试、优化并行处理程序的能力还非常弱。
易观国际分析师李也认为,“出于技术的挑战,双核甚至多核处理器被强加给了产业,而产业却并没有事先做好准备”。
或许正是出于对这种失衡的担心,中国国家智能计算机中心主任孙凝辉告诉《财经》记者,“十年以后,多核这条道路可能就到头了”。在他看来,一味增加并行的处理单元是行不通的。并行计算机的发展历史表明,并行粒度超过100以后,程序就很难写,能做到128个以上的应用程序很少。CPU到了100个核以上后,现在并行计算机系统遇到的问题,在CPU一样会存在。
“如果解决不了主流应用并行化的问题,主流CPU发展到100个核就到头了。现在还不知道什么样的革命性的进展能解决这些问题。”孙补充说。
实际上,市场研究公司In-Stat分析师吉姆克雷格(Jim McGregor)就承认,虽然英特尔已向外界展示了80核处理器原型,但尴尬的是,目前还没有能够利用这一处理器的操作系统。
中科院软件所并行计算实验室副主任张云泉也持类似的观点。他对《财经》记者表示,这个问题实际一直就存在,但原来在超级计算机上才会遇到,所以,讨论也多局限在学术界。而现在,所有用户都要面对这样的问题。
新的契机?
3月29日,英特尔向外界透露,其全球第一个45纳米工艺“Penryn”处理器生产线已经投产,包括低电压版的双内核笔记本处理器,还有双内核和四内核版的台式机和服务器处理器。
按照计划,这些产品将从今年下半年开始上市销售。有评论认为,其跨越程度可以与1996年从486到奔腾处理器类比。业内人士分析,“Penryn”实际上是65纳米工艺的“酷睿”系列处理器的45纳米版本。
从现在的产品路线看,一个全新的概念正在被英特尔反复强调——性能功耗比(Performance/Watt)。这或许意味着,目前英特尔发展CPU的战略正在从只重视生产工艺的提升,不断加入晶体管的“粗犷型”向“集约型”转变,就是以“好的架构设计,先进的生产工艺”,来逐步提升性能、降低功耗。
在布赖恩特教授看来,除继续增加核数,应该可以有很多其他方法来提升芯片的性能,比如用高速网络链接加快核之间的通讯,用更好的方法实现缓存和处理器间的通信。否则,就算是核心跑得再快,数据从处理器的高速进出或在处理器间传送不够快的话,再多的计算能力也无济于事。
对于中国的芯片制造者来说,目前两大处理器巨头所遭遇的瓶颈,也许不失为一个机会。
“现在英特尔和AMD再也不能重复以前的老路了,用户对他们的新产品也跟得不那么紧了。这个时候,也许中国企业就有机会了。”
孙凝辉对《财经》记者解释说,把努力方向转到降低功耗、价格上,也是“摩尔定律的另一条线。”而在降低价格从而争夺市场方面,中国企业一向不乏成功的先例。
但CPU在技术上是已经到达了顶点,还是遭遇到了暂时的瓶颈?这仍然是一个有争议的话题。这方面,Insight 64的分析师纳森布鲁克伍德显然是位乐观主义者。
的确,今天有很多人确信,从原子的尺度或者量子效应的制约来看,目前的芯片业在十年内就将到达物理上的顶点。但他提醒说,不要忘记在10年甚至20年前,我们很多人也是这么认为的(在十年内将达到顶点)。
虽然量子计算机走向实用可能还需要几十年的时间,但此外可能的探索,还包括分子计算机、化学计算机以及DNA计算机,“每当业界感觉到极限时,总是会有聪明的科学家想到其他的办法。”纳森布鲁克伍德对《财经》记者说。