深度学习加速器中矩阵向量乘部件设计

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:aizhuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于神经网络的深度学习算法是过去几年发展最为迅速的计算领域之一。从图像/视频/音频识别,到自动翻译、业务分析和自动驾驶,许多新兴的高性能和嵌入式应用都依赖于深度学习算法。深度学习模型常常包含巨大的计算量,而深度学习算法目前往往运行在通用的CPU和GPU,它们的吞吐率和能量效率相对较低。近年来学术界和工业界提出了多种新颖的面向深度学习处理器结构,这些加速器几乎都以大规模的矩阵乘加部件为核心,在其基础上充分考虑深度神经网络的计算特点和数据传输特点,设计符合其计算模式的存储层次和互联结构。从而在吞吐率和功耗上都取得了极大的改进。本课题所研究的矩阵向量乘部件是深度学习加速器的核心功能部件,占据了深度学习加速器的大部分面积,并对加速器的吞吐率具有主要贡献。因此,矩阵向量乘部件的设计与优化,对于深度学习加速器的实现有着关键的作用。具体研究工作如下:矩阵向量乘部件的逻辑设计。根据顶层要求完成指令译码设置,本设计支持3条矩阵向量运算指令。乘法器和加法阵列是矩阵向量乘模块的主要部件,根据不同算法的特点,选取合适的实现方法。乘法器由基4Booth编码、压缩树、并行前缀加法器和溢出判断4部分构成。其中对压缩树和并行前缀加法器的结构进行优化,以至于提高乘法器的性能。对于加法阵列部分,本设计使用4-2压缩树与并行前缀加法器相结合的方式,完成32个16位有符号数求和。矩阵向量乘部件的流水化设计、功能验证和逻辑综合。由于矩阵向量乘运算的延迟较大,对其进行流水化设计。经过仔细的逻辑划分,将运算过程划分为5站,并对每站的逻辑延时进行了较好的平衡。对完成的所有设计进行了验证。验证的方式为,用另一种算法完成乘法器和32个16位有符号数求和。为两种实现方法,输入相同的数据,对比结果,从而完成设计的功能验证。输入的数据采用随机数的方式生成。综合输出的网表用于后续物理实现。矩阵向量乘部件的物理实现。采用层次化的物理设计方法。通过对该部件的结构分析,确定了合理的的子模块划分方法和合理的子模块固化大小。在顶层,优化了宏模块布局,并优化缓冲器插入以实现长线延时缩减。通过以上方法,完成了该部件的的布局布线,并进行了时序分析和物理验证。深度学习矩阵向量部件面积为1300um×3600um,工作频率达到1.1GHz,功耗为1.3W。
其他文献
随着多媒体技术的发展,视频获取的途径越来越多,行为识别的应用也越来越广泛,例如:行为分析、危险预警、姿势识别、智能监控系统、人机交互、智能驾驶等,行为识别为这些应用提供了技术方案,具有很大的应用价值。但是视频不同于图片,图片仅包含空间信息,例如:颜色、纹理等信息,而视频不仅有空间信息,还有时序信息,时空特征的好坏直接影响最终的行为识别结果。深度学习发展至今,已在多个领域取得了卓越的成就,越来越多的
生物信息学的出现极大的推动了生命科学相关学科的发展,对于近年来不断增长的生物相关海量数据提供了相应的解决方案。其中蛋白质结构的研究是生物信息学中的一个热点,通过研
本文通过固相法合成钠离子电池正极材料P2型层状锰钠氧化物。研究了不同掺杂量的Cr、V离子和不同修饰量的CeO2对Na0.67Mn0.75Co0.25O2的结构和电化学性能的影响,不同取代量的La对Na0.67Co0.35Ti0.2Mn0.45O2的结构和电化学性能的影响。通过X射线衍射仪(XRD)和拉曼光谱对P2型层状氧化物材料进行结构表征,采用X射线光电子能谱(XPS)对电极材料的元素状态进行分
近年来,深度学习算法被广泛应用于各个领域,然而,大规模的带有标签信息的数据是该类算法取得良好性能的前提条件。众所周知,标注大量数据的成本是极其昂贵的,因而该前提条件不易被满足。值得庆幸的是,现实中存在大量已标注的和目标任务中数据相关的数据集,那么,如何利用已有的带标注数据,在目标任务中数据没有标签信息的情况下,建立深度学习模型以减小标注数据的成本,成为当下研究的热点。本文针对目标域数据标签不足的问
列宁作为马克思主义军事思想的继承人,在领导俄国革命实践中,坚定的推进马克思主义军事思想在俄国落地生根。他深知,军队建设对推翻资产阶级统治、捍卫无产阶级革命果实无比
长航程水下滑翔机是一种具有长航程、大潜深和可反复使用等特点的水下观测设备,其子系统众多且相互耦合,系统整体具有复杂性,造成其研制周期漫长。此外,作为一种水下设备,长航程水下滑翔机湖泊试验和海洋试验条件要求严苛、试验成本高且具有一定风险。因此,作为一种能大大降低成本且能有效缩短研发周期的陆地试验手段,半实物仿真技术对长航程水下滑翔机的研制意义重大。本文主要研究内容如下:1.建立了本文研究对象的数学模
近些年来,大数据与人工智能蓬勃发展,首屈一指的深度学习技术被用来对数据做特征提取,分类及递归运算,在计算机视觉,自然语言处理以及智能系统决策等领域有着广泛的应用,深度学习算法在硬件上的实现已然成为计算机硬件研究的热点,但随着其网络规模和复杂度的逐渐提升,传统计算机硬件显然已经无法满足所需的加速性能,那么如何加速神经网络的计算更是亟待解决的关键问题。仅仅几年间,各类人工智能芯片如雨后春笋般破茧而出,
随着国家海洋战略的推进,远洋海岛能源的开发与建设对于我国具有重要的经济和战略价值。然而,海岛与海上油田之间能源调度和海岛群之间能源的优化调度是海岛能量动态平衡的重要保证。海岛群的电源出力受到天气和季节的影响很大,出力不足时无法向海岛微网持续供电,在启用储能设备也无法满足的情况下,为了保障供电的可靠性需要启动柴油发电机等备用电源,那么海上油田需要持续不断的向海岛输送燃质。为此,本文基于柴油船舶的技术
苝酰亚胺衍生物是一类含氮氧杂原子稠芳环的杂环烃,不仅具有优良的光热稳定性,同时兼具低的还原电势,在通电或还原剂作用下,易被还原为一价阴离子自由基或二价阴离子。苝酰亚胺一价阴离子自由基因具有高活性和特征性的近红外(NIR)吸收带可参与自由基二聚化反应及可被潜在应用于光热治疗领域。同时如何通过简单温和条件制备得到苝酰亚胺二价阴离子是一个需要继续探索的话题。首先,在光热材料中,苝酰亚胺自由基阴离子是较为
长期以来,相当数量的违法行为由于缺乏有效的监管,严重损害了社会公共利益,而负有监管义务的各级行政机关则长期存在不作为、不履职的情形。我国于2017年6月确立了行政公益诉