论文部分内容阅读
可重构处理器兼具高性能和灵活性,特别适合于实现雷达信号处理等并行性高、数据量大的计算密集型应用。然而,为了满足雷达应用日益增长的高性能要求,粗粒度可重构处理器中的计算资源成倍增加。可重构处理器的并行计算资源在进行运算时,需要同时从片上存储中读取数据,会频繁地出现访存冲突现象,而访存冲突会导致片上数据访存时间变长、访存性能低,从而影响可重构处理器的工作性能。因此,设计合理的片上数据缓存结构以及高效的片上数据缓存管理机制对于提高可重构处理器的工作性能具有非常重要的作用。本文从雷达核心算子的访存特性入手,针对面向雷达核心算子的粗粒度可重构处理器中数据访存冲突造成的问题,设计了片上层次化的缓存结构,并提出了一种基于多存储体的线性步长可变的数据缓存管理机制。(1)本文分析了雷达核心算子的数据访存过程,总结了雷达核心算子数据访存的两大特性:数据访问并行性和一维规整跳步性。(2)从两方面着手对片上数据缓存管理机制进行了设计与优化:硬件结构方面,通过在可重构处理器中的各个计算阵列间设置多个存储单元形成共享的存储体簇,并通过理论分析和C模型仿真,对存储体数目进行了评估;管理机制方面,建立了计算阵列与各个存储体之间可配置的逻辑映射关系,降低了多个计算阵列并行工作时产生的访存冲突,提高了计算阵列的数据吞吐率,从而提高了可重构处理器的数据访存性能。本文电路实现采用SMIC 40nm工艺,电路运行主频为500MHz。实验结果表明,基于本文设计的片上层次化缓存结构以及数据缓存管理机制,片上数据缓存单元大小仅为770KB,片上数据访问性能提升了27.5%~58.0%。针对雷达核心算子,与经典并行缓存管理机制PMA相比,可重构处理器的访存性能平均提升了35%左右。以256-64K点FFT为例,数据访存性能与PMA相比提升了26.09%-54.60%。相比同类可重构处理器ADRES和Laysers CGRA,RASP在归一化性能上分别提升了4倍和3倍左右。