面积带宽优化的嵌入式GPU可编程着色器体系结构研究

被引量 : 0次 | 上传用户：wangyuange

【摘要】

：

随着VLSI工艺水平的不断提高与应用需求的不断增长，在系统级芯片中集成基于多统一着色器的嵌入式GPU已成为高端移动终端设备的重要发展趋势。但由于芯片面积的严格约束，嵌入式G

【作者】

：

常轶松

【发表日期】

：

2013年期

【关键词】

：

嵌入式GPU可编程着色器系统级仿真平台传输触发结构顶点高速缓存Cache

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着VLSI工艺水平的不断提高与应用需求的不断增长，在系统级芯片中集成基于多统一着色器的嵌入式GPU已成为高端移动终端设备的重要发展趋势。但由于芯片面积的严格约束，嵌入式GPU中可容纳的可编程着色器核心数量极为有限。这就要求在体系结构设计中必须有效提升单着色器的计算性能，并保证较小的面积开销；另一方面，嵌入式GPU在绘制过程中需要频繁访问片外图形数据存储资源，造成极高的总线数据访问带宽，增加了嵌入式GPU的系统功耗。因此如何对可编程着色器的逻辑面积和数据访问带宽进行优化成为嵌入式GPU体系结构研究的重要方向。本文将针对上述问题，从多核嵌入式GPU系统级建模方法、面积优化的单着色器运算单元通路与体系结构设计、带宽优化的多着色器顶点缓存结构等方面开展研究工作，为未来多核嵌入式GPU体系结构的研究与设计提供理论和技术基础。首先，本文提出一种基于混合建模技术的嵌入式GPU高层次全系统仿真平台。为了有效提升复杂系统软件的仿真速度，提出了基于QEMU虚拟机的微处理器指令集仿真器，并利用SystemC事务级模型对系统级芯片内部互连结构进行建模，有效提升系统仿真效率。之后提出一种基于基于片内数据缓冲区的多统一着色器的嵌入式GPU基础体系结构，并利用周期级建模的方法对其微结构细节特征进行描述。最后将周期级模型与SystemC事务级硬件模型进行整合，从而为本文后续的研究工作提供基础实验平台。其次，本文提出了可编程着色器内部面积优化的浮点运算单元数据通路。首先针对浮点向量运算的特点，提出了一种多功能统一浮点向量运算单元结构。通过对已有向量内积运算单元关键硬件模块进行向量化复用，使其支持基本向量运算类指令的处理，并在保证计算性能的同时尽可能降低逻辑面积开销。以此为基础，通过在着色器内部复用空闲向量运算单元，完成标量超越函数二次多项式近似的计算，进一步降低浮点标量特殊功能单元的逻辑开销。第三，本文以传输触发结构为基础，从性能和面积开销两个方面对单着色器体系结构进行优化。基于传输触发结构下细粒度数据传输和体系结构层次可见的数据旁路，减少着色指令执行过程中冗余结果数据的写回操作，从而有效发掘着色器内部的指令级并行性，并减少其数据通路中互连结构的设计复杂度。之后以顶点着色器为例，对基于传输触发的可编程着色器微体系结构进行详细设计。通过融合传输触发和顶点处理的特点，定制了着色器微指令集；并分别通过配置运算单元数目和改进寄存器端口及写回机制，达到进一步降低面积开销的目的。最后，本文对该着色器进行了硬件设计和FPGA原型系统搭建，验证了本文所提出的可编程着色器体系结构具有较高的计算性能并能够减少面积开销，从而有效提升着色器的面积效能。最后，本文提出一种面向图元的顶点拾取策略，有效消除在多着色器上运行的顶点数据任务间的顺序依赖性。在此基础上，通过改进原有面向单顶点着色器的顶点Cache结构，对多着色器结构下的顶点数据访问带宽进行优化。在进行顶点着色器前，使用Pre-TnL顶点Cache与面向图元顶点拾取策略相结合，缓存最近拾取的顶点数据，降低其总线访问频度；之后通过设计一种tag部分与数据存储部分分离的Post-TnL顶点Cache结构，有效缓存多着色器最近提交的顶点处理结果。最后通过在多核嵌入式GPU任务调度器中设计顺序提交控制逻辑，保证分离Cache缓存结果的正确性。仿真结果表明，分离Post-TnL顶点Cache可以有效减少重复处理的顶点数目，进一步降低顶点访问带宽。仿真评估和硬件实现验证结果表明，本文提出的嵌入式GPU可编程着色器体系结构设计方法可以实现对面积开销和顶点数据访问带宽的优化，为未来针对基于多统一着色器嵌入式GPU体系结构的设计与实现进行了有益的探索。

其他文献

氧还原非铂催化剂的研究

质子交换膜燃料电池（PEMFC）具有高效和洁净等突出优点，是最有发展前途的一种动力电池，可广泛用于移动电源和便携式电源。目前，PEMFCs主要催化剂为贵金属Pt类催化剂。然而，Pt储量低

学位

燃料电池氧还原非铂催化剂氮掺杂碳材料氮掺杂石墨烯

单一畸形精子症患者精子印记基因DNA甲基化与DNA损伤的初步研究

不育症，是人类现今面临的重大健康问题之一，影响了10-15%的育龄夫妇，其中男性因素占了大约50%。在临床上，男性因素不育通常是根据异常的精子参数（如少精、弱精、畸形精子等）来诊断

学位

单一畸形精子症流产率印记基因DNA甲基化细胞凋亡

压力管道安装工程项目质量控制实施技术要点分析

本文依据压力管道安装质量体系的文件和国家有关的特种设备的法规,并结合实际从事压力管道体系的管理工作经验,对体系的文件要求进行了选择提炼,对于管道的安装工程实施过程

期刊

控制要点压力管道工程项目

中医馆发展现状的思考

中医是中国四大国粹之一,是中国特有的传统医学。近年来西药质量事故频频发生,亚健康人群日益增多,带来了养生热潮,无论是从国家的重视程度,还是民间的信奉回归,中医中药这个

期刊

中医养生中医医院中医馆

醛糖还原酶通过自噬调控巨噬细胞固有免疫反应

【研究背景】醛糖还原酶（Aldose reductase，AR）是糖代谢中多元醇通路的限速酶，负责将葡萄糖转化成山梨醇。但是最近的研究发现，AR的作用并不仅仅局限于糖代谢过程，它还被视为介导多

学位

醛糖还原酶固有免疫反应巨噬细胞NF-κBIKK复合体自噬泛素化p62

不同级别医院剖宫产术临床必要情况分析

<正>剖宫产是产科处理高危妊娠的重要手段,然而过度使用剖宫产术并不能持续改善母婴健康结局[1]。近30年来,剖宫产率在世界范围内普遍上升,并远超世界卫生组织（World Health O

期刊

剖宫产指征临床必要性

钢骨架增强塑料复合管道的力学性能分析与优化设计

目前，对钢骨架增强塑料复合管道的市场需求不断增加；与此同时，对其工作性能的要求也在不断提高。因此，深入研究管道设计中的力学性能分析与优化问题，可以为解决实际问题寻求理论指

学位

钢骨架增强复合管道力学性能优化水锤有限元ANSYS

Fries重排反应催化剂的研究进展

介绍了甲磺酸型、金属-OTf型、杂多酸型、沸石型及离子液等几类Fries重排反应催化剂的结构和催化性能;评述了这几类催化剂相对于传统催化剂的诸多优点,如用量少、操作简单、

期刊

Fries重排甲磺酸金属-OTf杂多酸沸石离子液

学生主体性教学的误区与对策

在学生主体性教学的实践中经常会发现存在很多误区.要真正落实学生主体的教学思想,教师必须坚持正确的学生主体观,发扬教学民主,创造良好的教学环境,正确积极地发挥教师的主

期刊

学生主体性教学误区学生主体观教学民主主导作用

压力管道现场安装质量保证体系构建

在进行压力管道现场安装的过程中,往往要求有关人员能够加强现场安装质量的控制,而构建压力管道现场安装质量保证体系是其最为基本的要求。通过构建压力管道现场安装质量保证

期刊

压力管道现场安装质量保证体系焊接工艺

面积带宽优化的嵌入式GPU可编程着色器体系结构研究

与本文相关的学术论文