论文部分内容阅读
自从摩尔定律提出至今,集成电路领域的工作者一直致力于跟随其进度。随着后摩尔时代的到来,人们将研究方向从一味提高单片集成度转向多种新型架构与新工艺相结合。数据密集型应用作为处理器架构一个重要研究方向也发展出了多种创新形式。高处理能力的处理器架构成为了研究热点,其中包括面向特定领域高性能需求的可重构计算处理架构;面向高度并行的单指令多线程(Single Instruction Multi Thread,SIMT)处理架构;将网络互连引入片上互连来解决多核、众核互连的基于片上网络的处理架构。随着存储资源在芯片中占比越来越大,如何高效利用存储资源对处理器设计至关重要。在面向数据密集型应用处理器设计中,通常会采用多Bank设计的片上存储来提高存储带宽。Bank间的访存冲突会极大的影响多Bank设计带来的带宽提升。无论是针对特定应用或是通用目的的处理器架构,存储映射的优化通过将数据合理地分布在Bank中来减少Bank冲突,从而高效利用多Bank设计的访存带宽。根据应用特点合理映射运算与片外访存流程可以很好地重叠计算与访存过程,同时利用系统中计算和片外访存资源。本论文围绕可重构计算与SIMT处理器架构中存储映射问题展开研究,主要创新工作如下:(1)提出了一种基于可重构计算阵列的粗粒度可重构处理器架构。基于此架构我们设计实现了一款面向高性能数字信号处理的粗粒度可重构处理器(Coarse-grained Reconfigurable Digital Signal Processor,CRDSP)。对于 CRDSP 存储架构的设计首先根据应用对通过率和数据规模的需求确定片上存储器的类型、容量及Bank划分数量,然后后依据存储器模型综合分析不同组织结构的延时、面积和功耗确定Bank的组织形式。本文所设计的CRDSP已基于40nm CMOS工艺流片,工作频率为1GHz,峰值计算能力达69GFLOPS,最大功耗小于1.2W。(2)针对数字信号处理中广泛应用的FFT(Fast Fourier Transformation)运算中数据交织带来访存冲突,CRDSP中做了优化,包括:基2、4、8混合基蝶形运算单元;无冲突访存存储地址映射;旋转因子优化及存储设计;以及大点数FFT片外访存优化。CRDSP支持从128点到1M点区间的FFT运算。对于1K点、32K点和1M点的处理时间分别为2.57μs、82.25μs和7.4 ms。与其他先进的FFT处理核相比较,在归一化面积下CRDSP的FFT处理性能有明显优势,并且随点数增大性能优势越明显。更值得一提的是,CRDSP可以实现最大到1M点的FFT处理。(3)基于片上网络的计算架构也是数据密集型处理架构的重点研究方向之一。应对未来更高性能需求和更大应用规模,将多核架构与可重构处理器有效的结合是一种有潜力的发展方向。文中介绍了一种基于CRDSP和片上网络互连的多核可重构处理器架构,数据迁移优化的可重构处理器(Data Migrate Enhanced Reconfigurable Processor,DMERP)。DMERP采用高速缓存与可编程存储相结合的存储架构,该架构的研发将是未来的工作重点之一。论文中针对DMERP系统核缓存架构设计通过全系统仿真器定量分析研究了容量与组相关数、缓存块长度、L1 Cache和L2 Cache包含或排斥的组织结构和L2 Cache共享范围对系统性能的影响。应用存储映射根据应用的存储特点将应用流程映射至硬件资源以获得更高的处理效率。本论文中研究了一系列大规模数字信号处理应用在DMERP中的映射,通过专用数据迁移通道减少片外访存提高运算效率。(4)共享存储器是SIMT处理架构中编程者可控的片上存储资源。对于采用多Bank设计的共享存储器会存在访存冲突的情况,通过不同的映射方式将访存请求更好地分布于不同的Bank可以有效减少或避免访存冲突。本论文提出了一种基于访存模型(Access Pattern)的自适共享存储器映射方案。其优势在于不需要额外的线下计算,而是根据SIMT架构中第一批线程块的执行过程中统计出的访存模型信息实时计算出一种适合当前应用的映射方案,并应用于接下来的线程块执行中。相比于不采用地址映射的SIMT架构,该映射方法可以减少94.8%的Bank冲突,性能提升23.5%。