论文部分内容阅读
计算结构与应用算法的匹配性越好,其性能和计算效率也就越高,这就要求处理器能够根据应用的需要而重新构造系统结构。可重构计算兼有软件的灵活性和ASIC的优越性能,是处理器系统结构一个新的发展方向。而可重构技术和DSP处理器的结合也使得单DSP处理器性能有望得到很大提升。 本文以国家自然科学基金“可重构计算中控制配置研究”(编号60273088),国防“十五”预研课题(编号41308010307)和国防基础研究课题(编号k1800060504)为背景,对高性能可重构DSP处理器进行了深入研究。在完成了“控制增强型通用DSP处理器—龙腾D1”IP软核的基础上,系统研究了“龙腾DR”可重构DSP处理器模型和微系统结构,完成了仿真模型设计,仿真结果表明龙腾DR能够在多个DSP算法和应用领域中,提高单个DSP处理器的性能。 论文中主要工作和创新点如下: 1、在国防“十五”预研课题资助下,作为主要完成人之一,完成了具有自主知识产权的控制增强型通用DSP处理器软核—龙腾D1的设计工作。龙腾D1处理器软核以FPGA的方式通过了验证,并在第三方的MP3音频系统中获得应用。龙腾D1处理器软核映射到TSMC 0.25μm CMOS工艺下,主频超过150MHz,性能达到150M MAC,集成度为32万晶体管。 2、根据DSP应用的控制数据流图特点和可重构结构的适应性,提出了一种可重构DSP处理器模型——龙腾DR。根据数据流图所需地址产生流和数据计算流的不同,龙腾DR的地址产生单元和数据通路都可进行重构,提高了结构的适应性和性能。 3、根据龙腾DR处理器模型,提出了该模型的一种微体系结构,采用控制模式和重构模式间切换,显著减少了通信开销;与主/协处理器结构的REMARC相比,在4个DSP内核算法运行中,性能提高14.9%~48.4%。 4、基于粗粒度可重构结构所需配置信息少,重构开销小的特点,提出了将结构配置信息与计算数据混合放置的存储方案。四个算法内核计算中,在性能降低不到1%的代价下,免除了独立配置存储器和配置总线开销,大大节省了片上存储器和连线资源。 5、提出了一种自动映射算法Stretch&Shrink,该算法将多个DSP应用映射到龙腾DR上,功能单元利用率和存储器带宽利用率分别可达78.75%和80%。 6、采用国际常用内核算法FIR、FFT、矩阵乘、二维卷积程序,对本文提出的可重构龙腾DR处理器模型进行了仿真评价。测得龙腾DR相对于单DSP处理器的性能加速比为8.38~15.45。评价结果表明,龙腾DR能够高效地提高