论文部分内容阅读
“英特尔研究日是英特尔公司最新研究成果的集中展现,也是英特尔公司技术创新和前瞻视野的集中体现。”面对来自世界各地的数十名媒体记者和研发人员,英特尔高级院士、首席技术官、企业技术事业部总监贾斯汀(Justin Rattner)高兴地介绍说。
6月20日,2007年英特尔研究日活动(Research@Intel Day,以下简称研究日)在位于美国硅谷的圣克拉拉市英特尔公司总部举行。在历时两天的活动中,英特尔重点演示了50余组最新的研究成果,包括万亿次计算、高能效计算、移动计算等主题。它们代表了英特尔在研究领域的最新发展方向,同时也是业界前瞻性技术发展的风向标。
万亿次的诱惑
今年4月在北京召开的春季IDF(英特尔信息技术峰会)上,英特尔首次向业界展示了拥有80个内核、运算速度突破万亿次的处理器模块。在此次研究日活动中,万亿次计算依然是最大亮点。
英特尔万亿级计算研究计划是一项全球规模的研究项目,旨在创建未来十年的平台,并实现当前无法实现的功能。这就需要通过可升级多核架构、平台及软件实现向海量并行计算能力的转变。该计算可通过集成10到100个内核,有效地对几百个线程及兆兆位数据进行处理。英特尔目前在全球开展了100多个与万亿次计算相关的研发项目,研究探索万亿次计算可能遭遇的硬件和软件的挑战。
80核新进展
英特尔宣扬的“第一个万亿级芯片原型”也赫然位于其中。这一原型为一枚含有80个内核的处理器,大小为13mm×22mm,其处理能力相当于一台具备万亿级浮点运算能力的超级计算机。而此类计算机在10年前相当于12米×3米的房间大小。英特尔将之称为“一个具备强大数字处理能力的概念型巨无霸”。
在研究日的展示现场,英特尔再度展示了其80核处理器模块。该处理器包含的每一个内核均采用65纳米制程技术,拥有5KB高速缓存和两个浮点单元。
此次所展示的80核处理器模块与北京IDF期间的展示相比,虽然计算速度没有提高,依然是每秒两万亿次(TFLOPS),但其功耗却有了明显下降。记者在现场演示中发现,80内核处理器在6.26GHz频率的时候运算能力达到2TFLOPS,而此时的功耗仅为160.17W,相比在北京IDF展示时的191.79W下降了31.62W之多;在频率降至3.13GHz后,处理器的运算能力也减少了一半,只有1TFLOPS,不过功耗迅速降至原来的15%左右,仅为24W。在空闲状态下,80个核中有76个被关闭,只有4个在工作,其功耗也仅为3.32W,平均每个核心消耗0.83W。
目前,英特尔的80核研究项目已经分为两部分:其一是在80核处理器内整合x86核心,以发展通用计算处理器;其二则是在其中加入静态SRAM和动态DRAM存储单元,作为缓存之用,它可提供上百GB/s的带宽。
英特尔CTO贾斯汀透露,英特尔第一款万亿级处理器(研发代码为 Larrabee)预定于2010年发布,但有望提前于2009年面世。
创建万亿次时代的C语言
为了帮助软件开发人员应对万亿级系统,英特尔开发了一款名为Ct的编程模型,以进一步扩展编程语言C和C 。从本质上讲,Ct主要用于解决并行处理的复杂性。并行处理能够将一项任务的工作负载分摊到多个处理器上,以加快计算任务的完成。Ct提供了一种先进的数据并行编程环境,拓展了C语言的吞吐量计算能力,以便最优化当前及未来多核平台上的几个应用程序的可编程性及性能。
英特尔加利福尼亚州圣克拉拉市实验室的研究专家Mohan Rajagopalan表示,Ct可以让开发人员如同在为一个内核编写应用程序一样进行编程。在进行编译后,代码即可完成针对多个内核的优化,从而能够在运行过程中表现出优异性能。
据透露,英特尔计划在近期向开放源代码社区推出一个Ct的预览版。Rajagopalan表示:“我们当前正在处理一些法律问题,以使整个项目实现开放源代码。”
堆叠封装
为实现万亿次计算,不仅需要有高速的计算处理单元,还要突破数据传输的瓶颈。在研究日的活动中,英特尔研发人员透露了万亿次处理器的下一步研发计划,即引入半导体堆叠封装技术。
英特尔准备在万亿次处理器的下一代产品中,一改目前处理器核心与缓存同在一个平面上并列排放的传统做法,转而将SRAM缓存叠放在运算核心的顶部。这样做可以将运算核心与缓存间的带宽最大化,同时降低芯片的封装面积,有利于进一步提高频率。
堆叠封装技术的独特之处在于将芯片“粘合”在一起。它采用的是一种经典的球状矩阵,两个芯片都会覆上一层等量的保护塑料,隐藏在集成散热片的下面。在展示现场记者看到,80核处理器模块和SPARM缓存存储器同在一片晶圆上。在不远的将来,它们还可以相互堆叠在一起。
明天的移动计算
这辆时速可达30公里的无人驾驶汽车,内部集成了一台双路四核服务器,布满了各种传感器和雷达装置。
多种无线通讯标准的共存,使移动计算面临多种标准共融的难题。为此,英特尔研发中心的专家正在研究包括再配置无线信号的CMOS应用、利用多重无线信号的设备、可连接的网络及网络的安全性等技术解决方案。
融汇多种无线标准
随着无线标准不断涌现,为使用户保持与多种网络的连接,就必须使移动平台上的天线数量大幅度增加,这对产品的尺寸和成本控制带来了很大挑战。英特尔技术营销工程师Ross Hodgin举例说道,一个设备如果要同时支持Wi-Fi、WiMAX、3G无线网络和蓝牙,将需要8根天线。目前,英特尔正在着手攻克支持多个无线标准所需的天线数量这一难题。
为了将多根天线尽可能整合为一根,英特尔正在开发一种切换设备,它能够根据需要使用的无线标准,变更天线的无线电模式。Hodgin指出:“对于用户而言,他们将可以获得出色的灵活性、更小巧的外形和更低廉的成本等优势。”
英特尔采取的另一项整合举措是,将多种无线标准置于一张网卡上,而不是为每一种标准配置一张网卡。英特尔希尔巴罗实验室高级工程师Mathys Walma指出,为了实现这一概念,英特尔正在开发一种被称作“媒体连接控制”的技术,它将可以确保设备不会同时发送和接收多种无线标准。
用户需要可支持多种无线标准的设备,因此多重无线信号调协就成为同时操作的关键所在。英特尔正在进行的“多重无线信号共存时的MAC调协”技术方案的研究表明,下一代移动设备中各种标准是可以共存的。该解决方案支持动态预享RF频谱和硬件资源(天线、FEM等),实现了各种使用模式,并可同时连接Wi-Fi和WiMAX网络。
记者了解到,英特尔目前正在着手推出采用可配置组件的无线网卡,以便同一组件能够用于支持多种无线标准,进而缩小网卡的尺寸。
无线网卡也节能
在即将到来的万亿级计算时代,能效问题日趋突出。英特尔在不断开发出功能越来越强大的芯片的同时,也在降低能耗方面不断努力。
为了在万亿级计算时代继续这一趋势,英特尔正在为处理器开发“适应性电路”。该技术将能够判断出某项任务所需的最低能耗。英特尔希尔巴罗电路研究实验室的首席工程师Bryan Casper说道:“我们希望给芯片一个大脑。”届时,一项计算任务所消耗的动力,将被限制在“恰如其分”的水平。
英特尔在包含有芯片的PCI Expres插卡中展示了一个技术原型,与采用当前芯片技术的插卡相比,该原型的能耗仅为2.7mW,而原先的功耗为20mW到30mW。Casper说道,降低能耗非常关键,这是因为如果使用当前技术来支持带宽为每秒兆兆字节的PCI Express插卡,能耗将会高达100W。
除了超级计算外,英特尔还着眼于在移动设备领域实现更高的效能,以延长电池使用寿命。英特尔目前正在着手降低能耗的一个领域就是无线通信。
在研究日展示现场,英特尔的研究人员展示了一个Wi-Fi网卡原型,该原型带有一个固件,能够自动在网卡处于闲置状态时关闭电源。同时,该技术还可以判断出何时需要消耗较多的能量以接收或传输数据包。研究人员称,此类网卡的能耗比标准无线网卡要低50%~70%。
ICRC:不可或缺的技术中坚
“从圣彼得堡到北京再到圣克拉拉,英特尔研究中心已经成为一个世界级的研究团队,分布在全球15个地区,共有千余名研究人员。”英特尔CTO贾斯汀对于拥有一支遍布全球的研发队伍颇感自豪。在英特尔的15个研究中心里,就包括位于北京的英特尔中国研究中心(ICRC),它是英特尔技术研究的重要组成部分。
在此次研究日的展示现场,不少展台都插上了中国国旗,这表示所展示的项目由ICRC研发。ICRC此次共有CPU通过前端总线与FPGA协同工作、足球视频精彩事件检测与目标跟踪、个人视频自动编辑和分享、猜测并行多线程、Ct编程工具帮助构建万亿次应用程序、学生PC上的OverMesh、点对点移动合作等7个研究成果参加了展示。
足球精彩视频实时捕捉
随着视频内容的迅速增长,足球视频精彩事件检测、语义分析以及基于内容的快速浏览成为多媒体技术的一项重要应用。“足球视频精彩事件检测与目标跟踪”通过精彩事件检测,可以让用户从数小时的电视体育节目内容中迅速找到感兴趣的片段(比如射门的精彩镜头),从而为用户快速浏览节目和高效管理数据提供便利,并可节约大量时间。该应用由清华大学和ICRC合作研究,通过镜头类型、球场位置、镜头回放、兴奋语音检测、多模态信息融合与推理、球和球门的检测与跟踪、运动检测、跟踪和分类等技术,实现对足球节目精彩片段的提取和特定场景(如过人、传球等)的检测。据研究员介绍,根据对2002年世界杯多场比赛的测试,该系统的准确率已经超过85%。
为了提高大数据量视频分析的处理速度,ICRC使用英特尔技术对系统进行优化和并行处理。这一任务通过一款精彩瞬间提取软件完成,该软件运行于采用英特尔双核芯片的计算机之上。ICRC研究员童晓峰介绍说:“接下来的工作包括增加活动分析功能,以便系统能够识别犯规和进球的不同。”此类系统将需要使用处理能力高达100Gigaflop的8核处理器,要对每一场比赛均进行动作分析。这一模型将需要运行在64核处理器之上。
单线程乘上多线程快车
猜测并行多线程可以在万亿级计算平台上加速难于并行化的单线程程序。猜测并行多线程的猜测并行化了串行代码,并让这些并行线程投机执行,支持硬件或者运行监测软件会验证投机执行的结果,并在投机执行失败时发起恢复重新执行。ICRC正在开发相关的编译器技术并在研究使用事务性内存来支持猜测并行多线程。
在现场演示中,ICRC演示了从SPEC CPU2000 Int应用gcc中抽取的代码片段,即在4路的对称多处理器平台上使用软件事务性内存的猜测并行执行以及所得到的性能提高。尽管软件事务性内存有很大的执行开销,ICRC的猜测并行多线程版本还是可以比串行程序快一倍。
学生PC上的OverMesh
ICRC在研究日现场展示了互联网的一种新兴方向,即分散型的系统与网络。OverMesh是一种客户端进行计算和通信的平台,展示了一种不需要底层支持的信息技术。学生PC上的OverMesh系统演示了在英特尔的学生PC(Classmate PC,CMPC)上实现的集成网状通信方案,主要特色有:可在学生、教师、家长之间形成无线Ad Hoc连接,可进行即时通信和合作,不需基站或是接入设备,易于部署,可扩展性和可靠性都得到了提高。
移动合作的特性是实时在网状网络中实现的,可实现点对点即时消息、点对点语音和视频传送以及点对点的合作等。为体现长期前沿探索研究的方针,ICRC所展示的OverMesh研究平台演示系统配置了多无线电、多网状无线通信、点对点服务、分布式虚拟机以及分散式的可靠性与可管理性等特征。
6月20日,2007年英特尔研究日活动(Research@Intel Day,以下简称研究日)在位于美国硅谷的圣克拉拉市英特尔公司总部举行。在历时两天的活动中,英特尔重点演示了50余组最新的研究成果,包括万亿次计算、高能效计算、移动计算等主题。它们代表了英特尔在研究领域的最新发展方向,同时也是业界前瞻性技术发展的风向标。
万亿次的诱惑
今年4月在北京召开的春季IDF(英特尔信息技术峰会)上,英特尔首次向业界展示了拥有80个内核、运算速度突破万亿次的处理器模块。在此次研究日活动中,万亿次计算依然是最大亮点。
英特尔万亿级计算研究计划是一项全球规模的研究项目,旨在创建未来十年的平台,并实现当前无法实现的功能。这就需要通过可升级多核架构、平台及软件实现向海量并行计算能力的转变。该计算可通过集成10到100个内核,有效地对几百个线程及兆兆位数据进行处理。英特尔目前在全球开展了100多个与万亿次计算相关的研发项目,研究探索万亿次计算可能遭遇的硬件和软件的挑战。
80核新进展
英特尔宣扬的“第一个万亿级芯片原型”也赫然位于其中。这一原型为一枚含有80个内核的处理器,大小为13mm×22mm,其处理能力相当于一台具备万亿级浮点运算能力的超级计算机。而此类计算机在10年前相当于12米×3米的房间大小。英特尔将之称为“一个具备强大数字处理能力的概念型巨无霸”。
在研究日的展示现场,英特尔再度展示了其80核处理器模块。该处理器包含的每一个内核均采用65纳米制程技术,拥有5KB高速缓存和两个浮点单元。
此次所展示的80核处理器模块与北京IDF期间的展示相比,虽然计算速度没有提高,依然是每秒两万亿次(TFLOPS),但其功耗却有了明显下降。记者在现场演示中发现,80内核处理器在6.26GHz频率的时候运算能力达到2TFLOPS,而此时的功耗仅为160.17W,相比在北京IDF展示时的191.79W下降了31.62W之多;在频率降至3.13GHz后,处理器的运算能力也减少了一半,只有1TFLOPS,不过功耗迅速降至原来的15%左右,仅为24W。在空闲状态下,80个核中有76个被关闭,只有4个在工作,其功耗也仅为3.32W,平均每个核心消耗0.83W。
目前,英特尔的80核研究项目已经分为两部分:其一是在80核处理器内整合x86核心,以发展通用计算处理器;其二则是在其中加入静态SRAM和动态DRAM存储单元,作为缓存之用,它可提供上百GB/s的带宽。
英特尔CTO贾斯汀透露,英特尔第一款万亿级处理器(研发代码为 Larrabee)预定于2010年发布,但有望提前于2009年面世。
创建万亿次时代的C语言
为了帮助软件开发人员应对万亿级系统,英特尔开发了一款名为Ct的编程模型,以进一步扩展编程语言C和C 。从本质上讲,Ct主要用于解决并行处理的复杂性。并行处理能够将一项任务的工作负载分摊到多个处理器上,以加快计算任务的完成。Ct提供了一种先进的数据并行编程环境,拓展了C语言的吞吐量计算能力,以便最优化当前及未来多核平台上的几个应用程序的可编程性及性能。
英特尔加利福尼亚州圣克拉拉市实验室的研究专家Mohan Rajagopalan表示,Ct可以让开发人员如同在为一个内核编写应用程序一样进行编程。在进行编译后,代码即可完成针对多个内核的优化,从而能够在运行过程中表现出优异性能。
据透露,英特尔计划在近期向开放源代码社区推出一个Ct的预览版。Rajagopalan表示:“我们当前正在处理一些法律问题,以使整个项目实现开放源代码。”
堆叠封装
为实现万亿次计算,不仅需要有高速的计算处理单元,还要突破数据传输的瓶颈。在研究日的活动中,英特尔研发人员透露了万亿次处理器的下一步研发计划,即引入半导体堆叠封装技术。
英特尔准备在万亿次处理器的下一代产品中,一改目前处理器核心与缓存同在一个平面上并列排放的传统做法,转而将SRAM缓存叠放在运算核心的顶部。这样做可以将运算核心与缓存间的带宽最大化,同时降低芯片的封装面积,有利于进一步提高频率。
堆叠封装技术的独特之处在于将芯片“粘合”在一起。它采用的是一种经典的球状矩阵,两个芯片都会覆上一层等量的保护塑料,隐藏在集成散热片的下面。在展示现场记者看到,80核处理器模块和SPARM缓存存储器同在一片晶圆上。在不远的将来,它们还可以相互堆叠在一起。
明天的移动计算
这辆时速可达30公里的无人驾驶汽车,内部集成了一台双路四核服务器,布满了各种传感器和雷达装置。
多种无线通讯标准的共存,使移动计算面临多种标准共融的难题。为此,英特尔研发中心的专家正在研究包括再配置无线信号的CMOS应用、利用多重无线信号的设备、可连接的网络及网络的安全性等技术解决方案。
融汇多种无线标准
随着无线标准不断涌现,为使用户保持与多种网络的连接,就必须使移动平台上的天线数量大幅度增加,这对产品的尺寸和成本控制带来了很大挑战。英特尔技术营销工程师Ross Hodgin举例说道,一个设备如果要同时支持Wi-Fi、WiMAX、3G无线网络和蓝牙,将需要8根天线。目前,英特尔正在着手攻克支持多个无线标准所需的天线数量这一难题。
为了将多根天线尽可能整合为一根,英特尔正在开发一种切换设备,它能够根据需要使用的无线标准,变更天线的无线电模式。Hodgin指出:“对于用户而言,他们将可以获得出色的灵活性、更小巧的外形和更低廉的成本等优势。”
英特尔采取的另一项整合举措是,将多种无线标准置于一张网卡上,而不是为每一种标准配置一张网卡。英特尔希尔巴罗实验室高级工程师Mathys Walma指出,为了实现这一概念,英特尔正在开发一种被称作“媒体连接控制”的技术,它将可以确保设备不会同时发送和接收多种无线标准。
用户需要可支持多种无线标准的设备,因此多重无线信号调协就成为同时操作的关键所在。英特尔正在进行的“多重无线信号共存时的MAC调协”技术方案的研究表明,下一代移动设备中各种标准是可以共存的。该解决方案支持动态预享RF频谱和硬件资源(天线、FEM等),实现了各种使用模式,并可同时连接Wi-Fi和WiMAX网络。
记者了解到,英特尔目前正在着手推出采用可配置组件的无线网卡,以便同一组件能够用于支持多种无线标准,进而缩小网卡的尺寸。
无线网卡也节能
在即将到来的万亿级计算时代,能效问题日趋突出。英特尔在不断开发出功能越来越强大的芯片的同时,也在降低能耗方面不断努力。
为了在万亿级计算时代继续这一趋势,英特尔正在为处理器开发“适应性电路”。该技术将能够判断出某项任务所需的最低能耗。英特尔希尔巴罗电路研究实验室的首席工程师Bryan Casper说道:“我们希望给芯片一个大脑。”届时,一项计算任务所消耗的动力,将被限制在“恰如其分”的水平。
英特尔在包含有芯片的PCI Expres插卡中展示了一个技术原型,与采用当前芯片技术的插卡相比,该原型的能耗仅为2.7mW,而原先的功耗为20mW到30mW。Casper说道,降低能耗非常关键,这是因为如果使用当前技术来支持带宽为每秒兆兆字节的PCI Express插卡,能耗将会高达100W。
除了超级计算外,英特尔还着眼于在移动设备领域实现更高的效能,以延长电池使用寿命。英特尔目前正在着手降低能耗的一个领域就是无线通信。
在研究日展示现场,英特尔的研究人员展示了一个Wi-Fi网卡原型,该原型带有一个固件,能够自动在网卡处于闲置状态时关闭电源。同时,该技术还可以判断出何时需要消耗较多的能量以接收或传输数据包。研究人员称,此类网卡的能耗比标准无线网卡要低50%~70%。
ICRC:不可或缺的技术中坚
“从圣彼得堡到北京再到圣克拉拉,英特尔研究中心已经成为一个世界级的研究团队,分布在全球15个地区,共有千余名研究人员。”英特尔CTO贾斯汀对于拥有一支遍布全球的研发队伍颇感自豪。在英特尔的15个研究中心里,就包括位于北京的英特尔中国研究中心(ICRC),它是英特尔技术研究的重要组成部分。
在此次研究日的展示现场,不少展台都插上了中国国旗,这表示所展示的项目由ICRC研发。ICRC此次共有CPU通过前端总线与FPGA协同工作、足球视频精彩事件检测与目标跟踪、个人视频自动编辑和分享、猜测并行多线程、Ct编程工具帮助构建万亿次应用程序、学生PC上的OverMesh、点对点移动合作等7个研究成果参加了展示。
足球精彩视频实时捕捉
随着视频内容的迅速增长,足球视频精彩事件检测、语义分析以及基于内容的快速浏览成为多媒体技术的一项重要应用。“足球视频精彩事件检测与目标跟踪”通过精彩事件检测,可以让用户从数小时的电视体育节目内容中迅速找到感兴趣的片段(比如射门的精彩镜头),从而为用户快速浏览节目和高效管理数据提供便利,并可节约大量时间。该应用由清华大学和ICRC合作研究,通过镜头类型、球场位置、镜头回放、兴奋语音检测、多模态信息融合与推理、球和球门的检测与跟踪、运动检测、跟踪和分类等技术,实现对足球节目精彩片段的提取和特定场景(如过人、传球等)的检测。据研究员介绍,根据对2002年世界杯多场比赛的测试,该系统的准确率已经超过85%。
为了提高大数据量视频分析的处理速度,ICRC使用英特尔技术对系统进行优化和并行处理。这一任务通过一款精彩瞬间提取软件完成,该软件运行于采用英特尔双核芯片的计算机之上。ICRC研究员童晓峰介绍说:“接下来的工作包括增加活动分析功能,以便系统能够识别犯规和进球的不同。”此类系统将需要使用处理能力高达100Gigaflop的8核处理器,要对每一场比赛均进行动作分析。这一模型将需要运行在64核处理器之上。
单线程乘上多线程快车
猜测并行多线程可以在万亿级计算平台上加速难于并行化的单线程程序。猜测并行多线程的猜测并行化了串行代码,并让这些并行线程投机执行,支持硬件或者运行监测软件会验证投机执行的结果,并在投机执行失败时发起恢复重新执行。ICRC正在开发相关的编译器技术并在研究使用事务性内存来支持猜测并行多线程。
在现场演示中,ICRC演示了从SPEC CPU2000 Int应用gcc中抽取的代码片段,即在4路的对称多处理器平台上使用软件事务性内存的猜测并行执行以及所得到的性能提高。尽管软件事务性内存有很大的执行开销,ICRC的猜测并行多线程版本还是可以比串行程序快一倍。
学生PC上的OverMesh
ICRC在研究日现场展示了互联网的一种新兴方向,即分散型的系统与网络。OverMesh是一种客户端进行计算和通信的平台,展示了一种不需要底层支持的信息技术。学生PC上的OverMesh系统演示了在英特尔的学生PC(Classmate PC,CMPC)上实现的集成网状通信方案,主要特色有:可在学生、教师、家长之间形成无线Ad Hoc连接,可进行即时通信和合作,不需基站或是接入设备,易于部署,可扩展性和可靠性都得到了提高。
移动合作的特性是实时在网状网络中实现的,可实现点对点即时消息、点对点语音和视频传送以及点对点的合作等。为体现长期前沿探索研究的方针,ICRC所展示的OverMesh研究平台演示系统配置了多无线电、多网状无线通信、点对点服务、分布式虚拟机以及分散式的可靠性与可管理性等特征。