基于FPGA的深度学习训练加速器设计

来源 :南京大学 | 被引量 : 0次 | 上传用户:pdscyz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,深度学习技术已经在多个领域取得巨大突破,如目标检测、图像分类、语音识别、自动驾驶、超分辨率重构等,这其中,卷积神经网络模型无疑是最具代表性的深度学习技术之一。越来越复杂的模型虽然可以解决更多样化的任务,但是随之而来的是计算复杂度的迅速攀升与对大量存储空间的需求。目前对网络模型的训练与推理可通过超高算力的GPU集群来实现,然而在边缘设备上部署模型则面临着更复杂的挑战。首先,摩尔定律的限制使得人们不能永远寄希望于工艺的进步而带来算力的无限提升。其次,庞大的计算数据量与内存需求是边缘设备不能承受的。因此,为了在资源有限的边缘化平台上部署深度学习的模型且不影响其处理速度,设计针对深度学习的高能效、高吞吐率、低功耗、低延时的硬件加速器是非常有必要的。对于推理阶段而言,现有的研究已经有许多关于硬件加速器的设计工作,人们在高算力平台上对模型进行训练,而后用训练好的模型部署到边缘设备上进行相应的推理任务。然而对于专用于训练阶段的硬件加速工作却寥寥无几,由于训练阶段数据量大、片内外访存频繁、内存需求高等特点,极大增加了其硬件部署的难度。除此之外,训练过程涉及到更多的前向反向计算,若机械性使用用于推理的加速器不仅达不到令人满意的效果,还有可能适得其反。因此,设计专用于深度学习训练的硬件加速器是解决该问题最好的方式。在这样的背景下,本文聚焦于上述问题,提出深度学习在训练阶段的加速器设计等方案。首先,本文介绍了目前的神经网络加速器。目前大多数加速器都是针对推理阶段设计的,而对于训练阶段的加速工作则比较少。本文提出了一个基于FPGA的可重构深度神经网络训练加速器。具体来说,本文设计了一个可重构处理单元,该单元在统一的体系结构中灵活地支持各种计算模式。另外提出了一个经过优化的体系结构,实现了批量规范化层在不同阶段的计算。利用本文提出的框架在Xilinx VC706平台上实现了CIFAR-10数据集的通用模型ResNet-20的训练任务,实验结果表明该加速器明显优于其他同类加速器的工作。生成对抗网络(GAN)作为最具代表性的深度学习网络之一,近年来在图像生成、风格转换、视频生成等领域得到了广泛的应用。然而,由于该网络的训练计算复杂度高、中间存储数据量大,且GAN的训练包含生成器和鉴别器两个网络的迭代更新,相比传统的深度神经网络更加复杂,因此在嵌入式平台上训练GAN是一个非常具有挑战性的问题。因此,本文提出了一个基于FPGA的可重构训练加速器,以提高GAN的训练效率。首先,由于卷积计算可看作是大量的乘累加操作,而快速FIR算法的原理是适当增加加法器数量来达到减少乘法器数量的目的,与硬件设计尽量减少乘法器的思路不谋而合,因此本文针对GAN训练的特点,对级联FFA算法(CFFA)进行了优化,并在此基础上设计了一个快速卷积计算单元(FCPE),该计算单元可以灵活地支持GAN训练中的各种计算模式。然后,基于FCPE设计了一种可重构优化架构,以支持GAN训练的前向计算、反向误差计算和权重梯度更新过程。最后,本文基于以上设计在Xilinx VCU108平台上实现了对深层卷积生成对抗网络(DCGAN)的训练。实验结果表明,本文提出的设计在吞吐量和能效方面分别达到了315.18GOPS和83.87GOPS/W的结果。比较结果表明,本文的训练加速器性能明显优于其他同类加速器工作。综上所述,本文致力于深度学习训练硬件加速器的设计,结合算法的优化与硬件架构的设计,提出了基于FPGA的相应加速方案,相比于该方向上的其他科研工作有整体性能上的提升。
其他文献
学位
机械装置摩擦部件中常用的有常规滑动轴承系统,即具有光滑工作表面的滑动轴承。滑动轴承一个非常重要的因素是借助润滑剂形成油膜,润滑油膜的形成过程受到轴颈和轴瓦的宏观和微几何参数的影响。在微观几何情况下,适当的表面形貌可能导致滑动轴承增加承载能力和减少摩擦扭矩,这种表面形貌(织构)可以直接影响滑动轴承的性能。在研究滑动轴承—转子系统的动力特性中,油膜起到的作用有支承外载、降低摩擦、减少磨损、减振降噪、冷
考虑到细胞的个体异质性,从组织或细胞群体的分析无法提供有关单个细胞酶活性的信息。因此,单细胞水平上的酶活性分析有利于揭示酶在细胞异质性中的作用,并对疾病的早期预防和诊断有重要意义。尽管在检测单个细胞的酶活性方面已经取得了很多进展,但是单个培养细胞的信息并不能解释细胞相互连接的真正器官或组织中的细胞行为。鉴于组织切片可保留活体中的各种生物信息,所以对组织切片进行单细胞分辨率成像,比如组织上酶活性的高
成像技术是光学学科的一个重要分支,在人们生活的各个方面有着广泛而重要的应用。根据傅里叶光学理论,人们基于光学傅里叶变换技术发展了丰富的光学成像与图像处理技术。然而,对于高速旋转物体的成像,由于物体的傅里叶频谱在旋转过程中不断变化,传统的傅里叶光学成像技术并不能高效地应对这一任务。1992年L.Allen等人提出并验证,具有螺旋相位波前的光束中每个光子携带轨道角动量(orbital angular
含氟化合物在药物分子中广泛存在,由于氟原子体积小,电负性强的化学特性,有机含氟物质普遍呈现出非常独特的物理、化学和生物特性,如高度物理和化学稳定性,其独特的生物活性也使得对一个药物分子进行氟代可以在不大幅改变其空间位阻的情况下调控该分子的电子云密度或脂溶性。据报道约20%的全球新注册医药分子和35%的新注册农药中至少含有一个氟原子。因此发展有机分子的氟化反应有重要的研究价值。我们发展了一种新颖的镍
近年来,轻量化已经成为汽车行业发展的必然趋势。凸轮轴作为发动机中的关键部件,直接影响着发动机的工作性能。传统的整体式凸轮轴已经不能在轻量化、耐磨性等方面满足现代发动机的要求。而组合式凸轮轴由于结构轻巧、材料优化匹配等优点,应用范围越来越广。目前,已经开发出多种组合式凸轮轴连接工艺,主要有:焊接、液力胀接、滚花连接等。本课题采用的热气胀锻成形是一种新型连接工艺,具有轴管尺寸精度要求低、成本低等优点,
关键零部件的腐蚀破坏是海工与化工装备的主要失效形式,而材料表面性能是主导抗腐蚀性能的关键因素。S32205双相不锈钢作为一种重要的海洋工程和化学化工材料,其性能决定了零部件的服役寿命。因此,对S32205双相不锈钢进行表面改性以提高其在复杂环境下的抗腐蚀性能对海工和化学化工装备的服役性能具有重大的意义。激光冲击强化作为一种非接触性表面强化方法,通过超高压等离子体冲击波轰击靶材,使材料表层产生剧烈地
目的:观察分析生理状态下胞宫相关足三阴经经穴体表微循环血流灌注量在月经周期中的表现,探寻生理状态下足三阴经经穴体表微循环反应月经周期变化的特异性规律。方法:本课题共纳入90例月经周期正常、无痛经的健康未育女大学生,受试者均来自于河北中医学院,实验自2018年4月至2019年1月于河北中医学院实验中心完成。应用激光散斑血流成像技术,观察受试者胞宫相关足三阴经原穴(太冲、太白、太溪)、郄穴(中都、地机
目的:下肢静脉曲张(Varicose veins of lower extremity,VVLE)是慢性下肢静脉疾病(Chronic venous diseases,CVD)患者中常见临床表现。疾病发展后期可并发淤积性皮炎、皮肤溃疡等并发症,严重影响患者的生活质量,加重了社会经济负担,引起了广泛的关注。目前国内外对于本病尚缺乏理想的治疗方案。本课题将中医中药和射频消融微创治疗联合应用,重点突出中西
自上世纪磁性随机存储器(MRAM)概念的提出以来,有关于以磁性材料中的电子自旋属性作为存储媒介的概念得到了广泛的关注。这一新颖的信息存储模式打破了传统的半导体存器件储的诸多局限,诸如器件微型化问题,高读写速度与长存储时间的同时实现问题,存算一体器件的存储墙问题等等。以电子自旋属性作为信息存储媒介的新一代磁性逻辑器件,表现出极大的潜力,以磁性随机存储器(MRAM)为代表的磁存储器件已经在航空医疗等领