面向神经网络应用的精简指令集张量处理器设计

来源 :北京科技大学 | 被引量 : 0次 | 上传用户:augustS
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着人工智能领域神经网络算法的快速发展及成熟普及,越来越多的应用场景需要神经网络算法进行处理。目前主流的神经网络算法一般采用称为张量的高维度数组进行运算,此类运算具有多维度、数据量大、计算量大的特点。现阶段的通用处理器在张量计算性能方面受限且在功耗开销方面表现过高,因此在一些移动端应用场景下无法达到神经网络运行的高效能要求。鉴于此,设计一款针对神经网络应用的张量处理器成为了解决上述问题的途径之一,并逐渐成为目前处理器设计领域的热点。设计该类处理器的主要挑战在于如何使神经网络的先进算法与处理器设计及集成电路实现进行充分融合并发挥出最佳的效能。针对以上挑战,本文首先对神经网络算法进行了充分的分析,并尝试从软硬件协同设计、张量指令集定义以及处理器高效实现这三个方面出发,设计了一款高性能低功耗的张量处理器,该处理器兼容多种神经网络计算,并具有可扩展的计算架构。处理器在性能、功耗及面积等关键指标方面体现了一定的优势。根据这三个方面的工作,本文的主要研究内容和创新点如下:(1)张量处理器软硬件协同设计:神经网络模型具有多种效率优化方案,但并非全部适合在硬件上高效部署,甚至可能造成处理器的利用率急骤下降。为解决此问题,提高神经网络模型在张量处理器上的执行效率,本文提出了张量处理器的软硬件协同设计方法,并在实现的设计方案验证系统中论证了可行性。主要包括:①软件方面进行硬件友好的神经网络模型效率优化方法测试,本文通过对神经网络模型优化算法的研究,提出了神经网络动态特征图剪枝算法并优化了量化算法,分别降低了数据载入需求和量化算法的精度损失,并验证了定点运算可以满足神经网络的精度需求;②设计协同优化算法,配合并指导硬件设计,将高位宽的浮点模型转换为低位宽的全定点模型,在相同的存储器带宽下,提升了约4倍的数据吞吐率,相较于浮点模型仅损失0.22%的模型精度。③硬件设计方面,通过在验证系统中对大量神经网络模型的分析和处理器数据流行为级模拟,对张量指令集和张量处理器的输入输出移位、累加结果输出位宽等设计参数进行了探索及优化,进一步提高了处理器的整体效率和性能。(2)基于统一指令集的张量指令集:为了对神经网络算法中高维度张量和相关访存和计算行为进行完整的描述,本文基于统一指令集提出了张量指令集扩展:①张量指令集基于精简指令集风格设计,该指令集在低32位兼容统一指令集的基础上,在高32位设计了特定的位域来实现张量的载入、计算、写回等操作,并设计了不同的操作码、功能码、张量寄存器编号等重要指令行为定义。②张量指令集采用了对称的张量寄存器,以传统处理器中的通用寄器和向量寄存器作为张量指令的寄存器操作数,基于现有的可变长向量指令集,提出了维度寄存器以及维度可动态指定的张量指令。(3)基于张量指令集的处理器实现:本文对创新点(2)所提出的张量指令集进行了高效的微架构设计,实现了计算单元,寄存器等资源的张量化设计,形成一个完整的张量处理器。为了达到高效处理神经网络中张量计算的目标,本文提出了张量处理器中关键部件微架构优化方法。该方法包括:①计算单元方面,利用神经网络中的数据复用模式,提出了一种基于行列数据广播的原位乘累加脉动阵列,高效实现了各种张量的乘累加及其衍生类型的计算;②数据通路方面,为了提高数据载入的效率,设计了张量数据多级缓存流水线,实现了配合脉动阵列的数据行列广播。针对张量的载入及写回指令,结合张量数据的存储特点设计了具体功能单元,保证张量处理器可以高效利用存储带宽,进一步提高处理器整体性能;③指令并行方面,为了提升处理器整体指令的并行执行效率,提出了一种乱序执行机制和张量寄存器重命名方法,该方法在简化软件编程的基础之上,让更多的无依赖张量指令并行执行。在测试中利用该方法增加4个物理张量寄存器的情况下,提升了处理器35%的计算效率。本文基于周期级精确模拟器实现并验证了所提出的张量指令集及处理器设计方案,在相关EDA工具的辅助下对RTL级电路进行了实现及验证。在本文最后的实验部分对该张量处理器的硬件性能、效率、功耗和面积等指标进行了充分的评估与分析,并与相关工作进行了横向比较。最终结果显示,该张量处理器在1.1伏特的电压下以1 GHz的频率运行,使用4096个计算单元可进行每秒8.192万亿次运算(8.192 Tera Ops/s)。在TSMC 28nm工艺库的评估下,其面积约为12.8平方毫米,峰值功耗约为3.8瓦特,能量效率为2.16 GOPS/mW,处于当前的领先水平,相同能耗水平下,其峰值性能达到其他相关工作的4至36倍。
其他文献
核反应堆结构材料的辐照损伤直接影响着反应堆的安全性和经济性。多尺度模拟结合少量实验是研究结构材料辐照损伤的主要方式。在多尺度模拟体系中,介观尺度的团簇动力学(cluster dynamics,CD)方法是研究材料辐照损伤长时演化行为最有效的方法之一。本文围绕“CD的大规模并行模拟”这一核心论题,借助高性能计算技术和国产超级计算机,从CD的确定性求解和随机求解两个方面开展研究,发展大规模并行团簇动力
学位
钾离子电池因低成本等优势被视为大规模储能领域中锂离子电池的补充技术,近年来受到研究者的密切关注。石墨烯基材料因高比表面积和高电导率等优点而被视为钾离子电池负极材料的优异候选者。但石墨烯片层间存在的范德华力会引起石墨烯发生不可逆的团聚堆叠,从而造成低的可逆比容量和差的循环稳定性。三维结构石墨烯基材料理论上不仅能够抑制石墨烯片层的团聚堆叠,而且能够促进电解液的浸润和离子/电子传递,增加电化学反应活性位
学位
E690钢作为优质国产海洋工程用钢广泛应用于海洋装备,其在实际服役过程中主要依靠焊接方式连接,而焊接热影响区是最容易发生应力腐蚀失效的部位,因此研究E690钢焊接热影响区的应力腐蚀开裂(Stress corrosion cracking,SCC)行为具有重要意义。Nb微合金化常被用于改善E690钢等海工钢的力学性能,但是其对SCC行为的影响机制尚不明确。因此本文的工作围绕Nb微合金化E690钢焊接
学位
近年来,智慧城市、智能交通、智能家居等各种物联网应用系统已经渗透到人类生活的各个领域。物联网系统通过集成部署在开放环境中数量众多的异构软硬件设备进行任务协作,向外界提供智能服务。物联网系统的异构性、大规模性、上下文动态性的特点使得物联网的有效协同面临极大的挑战。面向服务的架构(Service-Oriented Architecture,SOA)技术以其天然支持互操作性的优势,广泛被用于实现物联网系
学位
热导率是材料的重要属性,有着广泛的用途,是确定热电材料能量转换效率的一个关键参数。探究微纳尺度的传热机理,设计可控的新型热传输纳米器件已成为近些年传热学研究的重点和前沿方向。解决芯片和器件的小型化、高集成以及高热流密度等热输运问题,必须面对跨尺度、多层次的产热、传热、散热等一系列复杂的过程。由于纳米级热传导实验测量的困难,迫切需要计算方法来辅助实验研究,也促进了模拟计算方法的进步与提高。碳基低维纳
学位
软件测试是一种重要的软件质量保障方法,通过检查待测软件在给定测试用例下运行的输出结果是否符合预期来检测潜藏的故障。测试用例的预期结果难以获取或获取的代价很高(即测试预期问题)是软件测试领域一直难以解决的开放问题之一。随着软件的功能日趋复杂和规模不断增大,测试预期问题不仅存在且愈加严重。蜕变测试通过检查待测软件多个不同测试用例的输出结果是否满足给定的必要属性(称为蜕变关系)来判断测试是否通过,有效缓
学位
液态高炉熔渣作为炼铁生产过程中的副产物,产量大,排出温度高,蕴含有丰富的热量亟待回收;其成分与水泥相近,急冷条件下可生成玻璃体态,用作水泥生产的辅助原材料。而干式离心粒化及余热回收工艺具有能耗低、参数易调节、粒化性能较好等优点,是兼顾实现熔渣余热回收和资源化利用的优选方案。目前,该工艺尚处于实验室阶段,还存在粒化机理不明晰、仓壁渣粒沉积造成板结、渣粒和冷却风品质调控矛盾等瓶颈问题。本文针对高温渣液
学位
随着社会经济和科学技术的发展,不锈钢因其优良的耐蚀性被广泛使用,但由于使用环境的复杂,不锈钢材料面临的腐蚀问题十分棘手,微生物腐蚀便是其中之一。芽孢杆菌属Bacillus subtilis是广泛存在于各种环境中的革兰氏阳性菌,也是兼性厌氧菌。厌氧环境中的B.subtilis能够作为硝酸盐还原菌将硝酸盐作为末端电子受体完成呼吸反应以获取能量,这一特点会使环境中的金属材料发生严重腐蚀。在微生物腐蚀的相
学位
载人航天器中装备安装有泵驱动流体回路系统,该系统通过液体传热介质的单相对流传热实现热控制。然而,液体工质的导热系数很低,很难满足散热系统高效传热和流体机械减摩技术的需要。纳米流体能够通过添加适当的纳米颗粒来提高换热能力、减少摩擦磨损。通过传热工质中添加碳纳米粒子,可望研制出兼具高效换热与减磨润滑综合力热性能的新型换热介质。本文针对航天器流体回路系统对高效传热技术和流体机械减摩技术的需求,围绕航天器
学位
随着科技的发展与社会的进步,非负盲源分离(Nonnegative Blind Source Separation,NBSS)在信号处理领域发挥越来越广泛的作用,一般地,信号的分离是后续的识别及检测的基础。NBSS常用的算法有几何方法和非负矩阵分解(Nonnegative Matrix Factorization,NMF)为代表的数值方法。然而这两种方法都存在着一定的局限性:几何方法对混合散点图凸包
学位