论文部分内容阅读
以处理器架构而言,多核架构正逐步取代传统的单核架构,并在嵌入式领域得到广泛的应用。多核处理器通过合理的任务调度和划分,充分挖掘任务并行性,可以实现处理器性能的提升。但是对于大多数应用,任务的并行性是有限的,因此处理器核数的增加并不总能带来性能的同比提升。为了进一步提升性能,一个方案是将专用的或者可重构的硬件加速部件与处理器耦合,令其协同工作。本文针对已有方案的优缺点,创新性的提出了一种异构运算阵列的架构设计,很好的兼顾了硬件加速部件的高效性与灵活性。 另一方面,存储器管理和数据处理是多核处理器架构设计中的一个具有挑战性的方向,很大程度上影响着多核处理器的性能。随着处理器核数的增加,分布式共享存储体系已经逐渐成为研究趋势。本文对一种基于分布式共享存储体系的多核处理器架构进行研究,并对比评估系统性能。 本文的主要工作内容和创新可以归纳为以下几点: (1)适用于运算阵列的双层片上网络互联 本文提出了一种以片上网络作为内部互联方式的异构运算阵列,并且有效的融合了包交换网络与电路交换网络。在通过包交换网络对阵列进行灵活配置的同时,也实现了基于电路交换网络的高效数据传输。这种双层片上网络的互联方式也使得异构运算阵列具有易扩展的特点,同时能够在多核处理器中高度共享。 (2)影子寄存器文件映射 本文基于片上网络和多核处理器的特点,将异构运算阵列和多核处理器的通信接口映射在了处理器的影子寄存器文件上。处理器通过读写寄存器文件就能对运算阵列进行访问,简化了处理器与运算阵列之间的协作方式。寄存器文件本身进行了可配置扩展,在提供通信接口的同时也提升了数据局部性。 (3)嵌入式应用单元设计 本文对多媒体和通信这两类主要的嵌入式应用进行研究,设计专用的硬件加速单元以提升运算性能。但是这类单元本身具有一定的可配置性,同时在运算阵列中也提供加法器和乘法器等通用单元,从而兼顾了阵列单元的高效性和灵活性。 (4)24核处理器芯片实现与应用实例 本文完成了异构运算阵列与24核处理器的系统集成,并在硬件RTL级设计和验证后,进一步完成了芯片实现与测试。多核处理器系统采用了TSMC65纳米低功耗工艺库,并基于ICC ILM层次化设计流程实现布局布线。芯片包含两种四核簇状结构,具有异构运算阵列的称为簇Ⅰ,没有的称为簇Ⅱ,共有四个簇状Ⅰ和两个簇状Ⅱ。芯片面积为4mm*4.7mm,其中单个异构运算阵列的面积为965um*742um,在1.2V供电电压下最大时钟频率为850MHz。 (5)分布式共享存储体系 本文对一种基于分布式共享存储体系的多核处理器架构进行研究,并采用H.264解码器应用进行性能评估。同时搭建FPGA平台对分布式共享存储结构与集中式共享存储结构进行对比实验。实验结果表明,分布式共享存储体系在多核处理器中具有很好的性能和功耗优势。