论文部分内容阅读
随着嵌入式应用的飞速发展以及芯片设计技术的不断进步,处理器结构专注于采用更多的并行计算资源开发并行性,而不再依赖于更复杂的串行硬件设计和更高的时钟频率。以超长指令字技术为主体,融合变长指令集、单指令流多数据流(Single Instruction stream Multiple Data streams,SIMD)以及多核等技术的数字信号处理器(Digital Signal Processor,DSP)体系结构,已经成为DSP体系结构技术发展的主流[113]。尽管这些体系结构技术能以较低的硬件开销,充分开发应用程序并行性,从而大幅提高处理器性能,但随着指令发射复杂度和SIMD宽度的增加,这些技术越来越受到数据通路利用率和可扩展性问题的困扰。本文研究面向性能的SIMD DSP指令流调度技术,主要从指令流分布、指令流取指发射和指令流执行三个部分展开。首先,分析和研究SIMD宽度、VLIW长度和多核数目在内的体系结构参数之间的关联,考察负载工作量的特征值,包括线程级并行(Thread-Level Parallelism,TLP),指令级并行(Instruction-Level Parallelism,ILP),以及数据级并行(Data-Level Parallelism,DLP)发生变化时,资源分配对系统效能造成的影响,以解释结构中的性能瓶颈,实现数据通路利用率和可扩展性的高效权衡;其次,变长VLIW处理器的取指发射流水效率,能够显著影响整个数据通路的利用率,研究取指和发射的关键问题,以减少取指和发射导致的流水线停顿,能够显著提升DSP性能。再次,对于广泛应用于高性能DSP中的SIMD技术而言,增大SIMD宽度并不一定能够提高程序执行性能,不同算法对SIMD宽度和程序流控制的需求有着显著不同,提高SIMD资源利用率对于提高系统性能有显著影响。本文针对超宽SIMD DSP片上指令流调度的关键技术进行研究,并取得了以下几个方面的研究成果:(1)借鉴近年来在通用多核芯片上的对性能和功耗的相关分析与研究,构建了一个新型的参数化性能功耗综合分析模型,来评估层次化片上大规模并行结构的性能和功耗。该模型抽象出参数诸如多核数量、超节点尺寸、处理单元数目、功能单元数目等,在满足一定性能约束和功耗约束的前提下,考察负载工作量的特征值TLP、ILP和DLP发生变化时,资源分配对系统效能造成的影响。解析结果提供了对于设计超高性能DSP结构的合理的选择,以及使得系统具有更好可扩展性的理论基础,进一步揭示结构中的性能瓶颈。(2)为提高变长VLIW处理器的取指发射流水效率,减少和消除现有单线程取指发射流水线效率提升机制的弊端,提出了一种基于变长指令VLIW结构的高效取指发射流水架构。该架构引入了无效指令的检测作废机制,来消除无效的取指访问带来的开销;引入了缺失指令旁路机制,来减少缺失指令引发的流水线停顿;引入了变长指令发射窗机制,解决分离指令字带来的发射问题,从而为结构提供高效连续的指令流。这一研究进一步揭示了基于VLIW架构的取指发射流水线架构的加速机理,使得单线程流控加速技术变得清晰,这对指导高效流控机制设计具有重要意义。这种取指发射流水线能够很好地在任意基于VLIW结构的处理器中进行应用。(3)提出了向量分支线程压缩机制(Divergent Branch Threads Compaction,DBTC),来解决因应用中没有包含充足的DLP,如应用中往往存在循环遍数低,控制流复杂,执行行为不均匀的情况,而导致的SIMD资源空转问题。将SIMD硬件并行资源转换成实际的应用性能,才是发挥SIMD结构处理器性能的关键所在。试验结果表明:向量分支线程压缩机制相较于基准SIMD结构,能够获取很好的加速。(4)提出一种称为解耦的迭代映射(Decoupled Iteration Mapping,DIM)的方法,来解决因应用中包含迭代间相关的循环而导致的SIMD低效问题,开发了潜伏在算法中的中粒度的流水线线程并行,获取了类似于多核线程级并行的执行模式。它通过软硬件的协同配合,动态的映射包含迭代间相关的循环到改进的SIMD结构上,每一个处理单元(Processing Element,PE)能够解耦的执行循环体的一个片段的不同迭代,lane间的数据传递通过专用数据缓冲链(data buffer chain,DBC)完成,从而自动榨取之前无法在SIMD结构上并行执行的线程。DIM维护线程的局部性,隐藏了关键路径延迟。实验结果表明,DIM能够保持SIMD结构的关键优势,并且大大提升SIMD结构处理含有迭代间相关应用的效率。(5)提出硬件支持软流水机制(Hardware Supported Software Pipeline,HSSP),来加速包含规整控制流的数据级并行循环体的执行。继而,提出多模式指令流出思想,它将解决非规整条件分支控制流的DBTC技术,提升体间相关循环的DIM技术,与优化规整控制流的HSSP技术有机结合起来,从而提升SIMD结构的综合实力,解决SIMD结构中关键瓶颈。