论文部分内容阅读
随着工艺集成度的增大和芯片主频的提高,功耗已经成为限制处理器性能提高的主要因素。过高的功耗影响了芯片的可靠性和寿命,增加了冷却成本,限制了部分高性能处理器应用于移动终端设备。同步设计是当今高性能处理器的主流方法,时钟信号是同步设计中分布面积最大,负载最多也是最重要的控制信号。在高性能应用中,时钟功耗占芯片总功耗的20%~45%。因此针对时钟网络的低功耗技术的研究具有非常重要的意义。本文分别根据底层时钟网络,中层时钟网络以及高层时钟网络的结构以及功耗特点提出对应的低功耗设计方法,从各个层次出发为高性能处理器提供性能功耗俱优的时钟分布策略。本文的主要贡献如下:
1.提出通过优化有效线长来降低底层时钟功耗。
本文首先提出了有效线长的概念,建立消耗于时钟网络互连线上的功耗与有效线长的正比关系。通过简化电路模型将有效线长与时钟网络的性能参数用时钟单元坐标的线性表达式表示。最终将有效线长的优化转化为一个线性规划问题。本文对随机生成的设计应用有效线长的优化方法,能够使有效线长平均降低26%。最后采用通用的芯片签核流程检查该优化对时钟偏差与时钟功耗的影响,并对实验结果进行了进一步分析和优化。
2.提出可配置时钟网格结构来降低中层时钟功耗。
本文提出可配置的时钟网格结构,即在时钟网格主干上加入传输门开关来实现网格的“门控”。首先引入开关效率来衡量传输门的开关特性,确定性能功耗比最优的传输门尺寸,继而进一步分析了时钟网格的配置方式以及输入偏差的分布对时钟网格切割前后性能以及功耗的影响,证明了加入传输门开关后的时钟网格能够同样有效地降低时钟偏差,并且提供关闭部分网格来降低功耗的功能,结果表明关闭15/16的网格能够将时钟网格的功耗降低78.8%。
3.提出高效的全局比例同步局部同步接口来降低顶层时钟功耗。
本文首先介绍了一种基于计数器的分频方法,随后提出了GRLS(Globally Ratiochronous Locally Synchronous,全局比例同步局部同步)通信机制,主要解决频率成比例关系的时钟域之间的通信问题。时钟域间的数据一致性由控制信号来保证,不会引入额外的同步延迟。两个时钟域波形间的相位关系确定,因此可以引进同步电路分析方法来保证数据正确传输。与异步FIFO相比,GRLS能够使得存储系统的带宽平均提高5.87%,延迟平均降低5.51%。利用本文提出的GRLS对龙芯3A四核处理器的主时钟域进行分割,可以在不影响性能的前提下使得各块二级缓存分别降频,最高可以将二级缓存的功耗降低84.44%。