论文部分内容阅读
YHFT-XX是一款国产的高性能多核数字信号处理(DSP)芯片,内核采用11发射超长指令字(VLIW)结构,单条指令40或80位。向量处理部件(PXX)是DSP内核中面积最大的一个模块,每个PXX内部包含16个向量执行部件(PX),PX性能的好坏直接关系到整个芯片的性能。这款芯片要求DSP主频达到1GHz以上,这一设计目标对PX的设计与优化提出了严峻的挑战。本文首先通过分析PX的整体结构确定了层次化设计方法,根据DC综合结果确定了各个模块所必须采取的优化策略,然后采用不同的优化方法对PX内各个模块进行了优化设计,有效地减少了面积、降低了功耗、达到了1GHz以上工作频率的设计目标。本文的主要工作与成果如下:1、基于ASIC自动综合的方法得到了整个PX中各个子模块的时序和面积数据,经过综合结果分析,确定了层次化综合策略和不同模块采用不同优化措施的整体优化方案。首先在微体系结构级对关键路径进行优化,然后对向量寄存器文件(RF)和向量乘累加(Multiply and Accumulator,MAC)部件中的64位乘法器采用定制设计与优化方法,其它子模块采用半定制设计与优化方法。2、研究分析了各种微体系结构优化方法,并对RF中旁路译码模块、存储阵列写译码模块和旁路阵列等关键模块进行了优化设计,其关键路径可以减少15%的延时,32位乘法器面积减少64%。3、完成了RF模块的全定制与半定制混合设计优化和64位乘法器模块基于数据流驱动的手工半定制设计优化,以及其它模块的半定制设计,有效地缩短了设计周期、减少了面积、降低了功耗、提高了性能。64位乘法器和RF中全定制模块时序满足1GHz的设计目标,同时面积满足设计需求。4、完成了对PX各模块的层次化物理设计与集成。首先分别对MAC和RF进行物理设计,其中对RF中旁路阵列与二选一和64位乘法器采用基于数据流驱动的手工半定制物理设计方式实现,最后在PX顶层调用RF中的全定制宏模块和采用半定制设计的模块MAC,完成整个物理设计的集成与优化,取得了显著的效果。在时钟周期为950ps的约束下,PX两种布局方案都满足设计要求,其中reg2reg路径存在约70ps的余量。物理设计后PX能够在40nm工艺下达到1GHz以上的频率,两种布局方案均达到设计要求。