论文部分内容阅读
很多数字信号处理(DSP)应用和算法中存在固有的并行性,设计者通常使用多个DSP处理器芯片并行计算,来提高数字信号处理系统的性能。微电子加工技术的进步,使单个系统芯片(SoC)上可以集成多个DSP处理器,而单个DSP处理器在性能提高方面遇到了结构上的瓶颈。目前的研究认为,采用片上网络互连多处理器(NetCMP)结构的DSP处理器SoC能够更高效地提高单个DSP处理器的性能,更好地满足军事和民用高端领域的需要。 本文以国防“十五”预研课题41308010307和国防基础研究课题k1800060504为背景,在完成了“通用DSP处理器—龙腾D1”软核的工作基础上,系统研究了片上网络结构和采用NetCMP结构的“龙腾DN”处理器模型。仿真结果表明,“龙腾DN”处理器能有效地提高对DSP应用的处理能力。 论文的主要工作和创新点如下: 1、在国防“十五”预研课题的资助下,作为主要完成人之一,完成了具有自主知识产权的控制增强型通用DSP处理器软核-龙腾D1处理器的设计工作。龙腾D1处理器软核以FPGA的方式通过了验证,并已在第三方的MP3音频处理SoC中获得应用。龙腾D1处理器软核采用TSMC 0.25μm CMOS工艺,主频超过150MHz,性能达到150MMAC,集成度为32万晶体管。 2、提出了一种两级动态功耗管理(TLDPM)模型。该模型第一级采用积分跟随预测算法,第二级采用适应性微分调节策略,能够更加准确地预测处理器的空闲周期,使处理器节省更多的功耗。仿真结果表明,TLDPM模型降低的功耗比典型预测算法提高了52.9%~89.5%。 3、提出了基于局部负载概率的片上网络功耗模型(NPower)和时延模型(NDelay),据此分析了三种典型片上网络结构,表明在网络规模相同的情况下,多层Mesh比二维Mesh最多可降低49.0%的功耗和54.2%的时延,比快速立方体最多可降低47.1%的功耗和62.5%的时延,说明多层Mesh是较优的片上网络结构。 4、提出了一种双路由器多层Mesh(Double-Router Hierarchical Mesh,DRHM)结构,采用局部和远程两个路由器,降低了多层Mesh的时延和功耗;仿真结果表明,比单路由器多层Mesh结构的功耗降低31.4%,时延降低30.6%,增加的链路资源不超过15.4%。 5、提出了多个DSP处理器通过双路由器多层Mesh(DRHM)网络互连组成的NetCMP结构处理器-龙腾DN处理器模型。在该模型中,每个DSP处理器通过局部路由器共享相邻处理器的一级存储器;路由器采用并行仲裁的三级流