暗硅时代CoDA架构可扩展性及能效问题研究

来源 :西北工业大学 | 被引量 : 0次 | 上传用户：luoyanxiang

【摘要】

：

硅工艺朝着物理极限的不断迈进，导致了由摩尔定律和登纳德定律组成的集成电路传统缩放模型失效。在芯片功耗墙的限制下，人们发现在后登纳德定律时代，芯片设计中存在使用墙问题以

【作者】

：

郑乔石

【机构】

：

西北工业大学

【出处】

：

西北工业大学

【发表日期】

：

2015年期

【关键词】

：

暗硅大规模异构协处理器能量效率可扩展性

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

硅工艺朝着物理极限的不断迈进，导致了由摩尔定律和登纳德定律组成的集成电路传统缩放模型失效。在芯片功耗墙的限制下，人们发现在后登纳德定律时代，芯片设计中存在使用墙问题以及由此所观察到的暗硅现象。更进一步地，随着工艺的持续进步，暗硅现象会不可避免地急剧恶化，使得芯片设计进入暗硅时代。　　在暗硅时代，芯片上可以在极限时钟频率下翻转的晶体管的比例急剧下降，这使芯片上出现大量无法有效利用的晶体管。这些不断增加的无法使用的晶体管，导致在设计芯片时功耗和能耗与芯片的面积相比更为重要。这种设计思路的转变导致了利用暗硅来换取高能量效率的新型体系结构不断涌现，大量集成异构专用协处理器就是其中之一。　　单个专用协处理器与通用处理器相比可以提高10倍以上的能量效率，使得集成少量专用协处理器的系统能量效率大大提高。但常见的系统具有大量不同的应用负载，为了提高这样系统的能量效率，架构师需要集成大量的异构专用协处理器并调度软件到专用协处理器上执行。这使得最终系统架构成为CoDA（Coprocessor-Dominated Architecture)。　　本文紧紧围绕作者作为GreenDroid和暗硅团队成员在加州大学圣迭戈分校工作期间，所进行的论证CoDA架构设计合理性、可扩展性、能量效率、发现解决未来CoDA架构实现所遇到的潜在问题展开，进行了以下几个方面的创新性工作：　　(1)研宄了CoDA对应用的适用性，并以此说明CoDA适合暗硅时代。本文分析了安卓移动软件栈，发现大部分应用是基于共享原生库和虚拟机的，硬件化这部分软件就可以使得应用的大部分运行在专用协处理器上。之后重点分析了安卓浏览器，并使用硅构造专用协处理器实现了这个浏览器。实验结果表明在22 n m工艺下7mm2的硅面积用于构造专用处理器就可以覆盖浏览器90％的运行。使用可接受的硅面积就可以覆盖应用执行，证明了CoDA架构适合暗硅时代。　　(2)针对快速探索CoDA设计空间的需求，提出了CoDA架构分析模型，并对本文提出的多维度可扩展CoDA架构进行建模。该架构可以由不同数量的瓦片组成，每一个瓦片可以包含不同数量的函数粒度专用协处理器，并且每一个专用协处理器都可以是异构的。分析模型用来评估每一种特定CoDA架构的能量、面积和性能；模型参数既包含了高层次的体系结构参数，也包含低层次的电路实现参数。　　(3)探索了CoDA架构在不同Cache配置、瓦片大小、粗粒度能耗管理策略以及晶体管实现等参数下的能量效率问题。在最优化的参数条件下，与通用架构相比小规模CoDA设计可以带来5.3倍的能量效率优化和5倍的能量延时积（energy-delay product，EDP)优化；而对于支持上百个应用的大规模CoDA设计，可以带来3.7倍的能量效率优化和3.5倍的EDP优化。这说明为大规模应用而设计的大规模CoDA扩展是有效的。此外，本文发现CoDA设计即使采用了激进的能耗管理策略，漏电功耗所占总功耗的比例仍然随CoDA规模增大而增大。　　(4)探索了并发执行对CoDA能量效率的影响。积极的影响是这些同时运行的程序或线程可以分摊漏电功耗等固定的开销，这样可以提高系统的能量效率。消极的影响是，当驱动CoDA生成的目标应用集合和实际运行的应用集合不匹配时，会造成大量程序竞争某些专用协处理器，系统的平均能量效率将大大降低。本文提出CoDA架构集成覆盖多个函数功能的融合QsCore来减少竞争冲突。实验表明使用融合QsCore的方式，仅仅增加41%的面积就可以提供2倍数量的专用协处理器，并使得非均匀分布负载的能量效率提高11.1%~22.1%。　　(5)针对使用当前工艺实现的FPGA模拟下一代工艺实现的CoDA芯片时，单个F P G A芯片资源不足的问题，提出了跨多芯片可扩展的2D-mesh片上网络。该网络由跨芯片的环形网络连接，并为跨芯片的每一个2D-mesh物理通道分别提供跨芯片的流控机制。跨芯片的环形网络提供了ASIC芯片到FPGA以及FPGA之间两种可选连接方案。通过使用该设计方案，本文使用两块Virtex6 FPGA芯片首次实现了CoDA架构原型系统。

其他文献

基于全局视觉的仿人机器人足球比赛系统

目前,仿人机器人技术的研究已经逐渐成为一个热点。与传统的工业机器人相比,仿人机器人的结构更加类似于人类,在模仿人类的行为上,具有明显的优势。人类的身体结构,在大自然

学位

机器人足球仿人机器人全局视觉复杂运动规划

网格系统中的信任管理评估模型研究

网格是一种新型的分布式计算技术，能实现互联网上所有资源的互联互通，完成计算资源、存储资源、通信资源、软件资源、信息资源、知识资源、专家资源等的智能共享。网格已经广泛

学位

网格系统智能共享运行效率信任度合成算法信任管理评估模型

基于RTP的音频数据传输子系统的设计与实现

随着计算机和网络技术的发展，目前的ADSL终端所提供的带宽已经不能满足人们的需求。华为根据终端用户需求，开发一个GPON光网络终端接入产品ONT550，能够满足家庭网络的需要。把光

学位

音频数据传输系统实时传输协议环形缓冲区优化算法语音质量网络抖动

虚拟参考实时咨询系统分析设计及核心模块实现

北京邮电大学(北邮)在“十五”“211工程”建设期间,自主研发了一套具有北邮特色的数字图书馆集成服务系统。该系统包括虚拟参考咨询、信息门户、统一资源检索、数字资源管理

学位

实时咨询音视频JMFRTP调度

Petri Nets工作流及其在审计管理中的应用

审计是商业银行风险防范的最后一道防线。随着我国进入WTO,商业银行在经营过程中面临的风险也越来越大。做好内部审计防范经营风险,成为商业银行工作的重中之重。审计管理系

学位

工作流工作流管理系统Petri Nets工作流网审计管理

基于蛋白质互作网络的疾病相关miRNA挖掘方法的研究

在人类胚胎发育和疾病发生等过程中,miRNA扮演着重要的调控角色。而随着miRNA研究的深入,有关miRNA的生物学数据正迅速增多。由此,通过寻找生物学数据之间的联系,生物信息学

学位

miRNA疾病蛋白质互作网络拓扑参数

面向连续语音识别的半监督学习方法的研究

语音识别技术日趋成熟,但仍存在一系列难题亟待解决。其中较为突出的是:对数据的标注成本高、耗时长,想获得大量的标注数据十分困难,而另一方面,却很容易获得大量的未标注数

学位

连续语音识别半监督学习置信度选择策略自学习与确认相结合

基于图的标志SNP位点选择算法研究

单核苷酸多态性（SingleNucleotidePolymorphism，SNP）是指在基因组水平上由单个核苷酸变异所引起的DNA序列的多态性。在各类单体型中，少部分SNP位点包含绝大部分的遗传变异信息，这

学位

标志SNP位点选择算法单核苷酸多态性基因型序列

基于PSM模型业务构件的配置逻辑研究及工具实现

在企业信息系统软件的开发中,为了提高开发效率、增强软件的可复用性和可移植性等性能,越来越多的软件开发都采用模型驱动架构(Model Driven Architecture, MDA)方法学。业务

学位

MDAPSM业务构件配置逻辑

基于转码的数字视频水印研究

互联网的飞速发展与数字视频媒体的广泛应用在给人们带来便利的同时也带来了数字内容的非法复制和盗版等版权保护问题,传统的密码学对此无能为力,因此,新的视频水印技术应运

学位

视频水印纹理人类视觉模型运动矢量

暗硅时代CoDA架构可扩展性及能效问题研究

与本文相关的学术论文