论文部分内容阅读
嵌入式图形处理器(Embedded Graphics Processing Unit, EGPU)是高性能嵌入式平台中必不可少的组成部分,无论是智能手机、平板电脑,还是其他嵌入式设备,高效的图形处理及数据运算能力已经成为基本需求,都需要经由高性能EGPU处理并呈现给用户。游戏场景渲染、高清视频处理、高性能并行计算等众多的应用需求推动了EGPU的快速发展,对其架构设计和优化提出了迫切的需求。由于嵌入式系统在面积、功耗和灵活性方面的限制,使得高性能低功耗的EGPU设计正逐步成为领域内的发展重点。随着半导体制造工艺进入后摩尔时代,通过提升频率及增加核心数量的方法获得性能增长的代价越来越高,需要进一步研究EGPU处理单元的架构与算法优化来提升处理性能,这是EGPU研究的关键问题,具有重要的研究意义与应用价值。本文以EGPU处理单元的研究与设计作为重点,首先对计算机图形学原理及图形渲染算法进行了介绍,明确EGPU处理单元在图形渲染的过程中所发挥的作用;随后对GPU和EGPU设计架构进行了分析和研究,探索适合嵌入式平台的图形处理硬件加速单元结构,使其在性能和硬件开销上取得平衡。在此基础上,本文提出了一种硬件加速单元UPE(Universal Processing Engine),作为EGPU的处理单元。UPE采用统一渲染模型,可以同时用于3D图形处理和通用计算。UPE中包含2个统一处理器UP(Universal Processor)和一个控制单元UPC(Universal Processor Controller).UP中包含4个流处理器SP(Streaming Processor)和一个特殊函数单元SFU(Special Function Unit),用于完成图形处理和通用计算。UPE硬件加速单元的主要创新点包括:采用指令打包多发射结构以提升硬件利用率,动态地平衡各处理单元之间的负载;采用层次化处理结构实现硬件线程级别的并行处理,提升处理性能;通过灵活的总线访问机制和存储结构设计有效的减少了数据访问和处理的延迟。本文完成了UPE硬件加速单元的设计和逻辑综合。基于课题组前期搭建的嵌入式图形处理器HDL平台对UPE进行验证,采用Synopsys公司VCS+Verdi作为验证工具,以Testbench+DUT的方式进行验证。在CSMC018工艺下对UPE进行了逻辑综合和时序分析,在200 MHz的时钟下,UPE的浮点处理能力达到1GFLOPS,最优情况下图形处理性能为100M顶点或者像素每秒,平均处理能力为56M顶点或者像素每秒。同时,其功耗为198.228mW,面积约为27mm2。仿真结果表明本文所提出和设计的UPE硬件加速单元可以应用于嵌入式处理平台,作为EGPU的处理单元,对所建立场景中顶点数据进行正确的处理,完成场景渲染,并能够正确高效的完成通用计算处理,在性能和硬件开销方面达到较好的平衡。