基于eFLASH存算一体架构的卷积神经网络加速器设计

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:gaolch007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
卷积神经网络是一种以卷积运算为主的前馈神经网络,在图像识别、音频识别等领域有着广泛的应用。随着卷积神经网络的不断发展,其内部权重参数和网络深度也不断增多,对算力提出了更高的要求,CPU和GPU难以提供如此算力,因此人们更加倾向于开发专用的卷积神经网络加速器。而传统的卷积神经网络加速器往往采用冯诺依曼架构,超过80%的功耗被消耗在数据的搬运过程中,因此不管是学术界还是产业界都逐渐将目光投向非冯诺依曼架构的存算一体卷积神经网络加速器上。存算一体架构顾名思义,即将存储模块与计算模块在物理上融为一体,使存储器拥有计算的能力,从而免去搬运数据的时间和能耗。本文提出的卷积神经网络加速器正是基于被广泛使用的闪存-FLASH。由于FLASH属于非易失性存储器,因此数据在断电后仍能保留在存储器内,在应用上更为方便。在本文中,我们提出了一种基于SMIC 40nm 1Mb ML-FLASH的存算一体体系架构,并进行了硬件设计。由于存算一体架构的芯片没有形成完整的产业链,目前没有成熟EDA工具可以对其进行综合仿真和验证,因此本文提出了一种针对基于非易失性存储器存算一体架构的建模方式。考虑到工艺误差,激活的单元数,输入输出模块的积分非线性,读出电路的量化误差等因素,我们对提出的MLFLASHCIM架构进行了建模。对于全精度输入/权重参数到4bit的量化,我们提出了1/n顶值量化方案和可适配放大量化方案,以提高推断精度。本文还搭建并训练了多个卷积神经网络模型用于对提出的卷积神经网络加速器进行验证,当应用于改进的VGG-16卷积神经网络时,可以实现92.38%的推断精度。对于4位乘累加(MAC)运算,本文提出的基于FLASH存算一体架构的卷积神经网络加速器可以实现250GOPS的峰值吞吐量和35.6TOPS/W的能效。
其他文献
近年来随着人工智能AI(Artificial Intelligence,AI)领域不断发展创新,深度强化学习异军突起,在工业制造、金融学、心理学、医疗学、汽车自动驾驶等领域得到了广泛的应用。深度强化学习将深度学习与强化学习技术结合,经过近几年的迅猛发展,许多算法相继提出,如A3C(Asynchronous Adavantage Actor-Critic,A3C),TRPO(Trust Region
移动机器人建图研究,是近年来快速发展的移动机器人领域中,最为基础与核心的技术。机器人要实现复杂环境下的精确运行,就要以高精度点云地图作为参照。机器人在环境中的自主运动过程可分为以下几个步骤:由各类传感器采集环境数据,将原始数据传输到工控机的机器人操作系统中,按预定规则进行数据运算处理,得到动作指令或姿态位置数据,其中动作指令被传输到电机驱动部分,姿态位置等数据则进行存储及下一步处理。本文提出了一种
随着电子产品的发展,需要满足更高的应用指标,在不增加变换器的体积和重量的前提下,我们不得不追求更高的工作频率来提高开关电源的功率密度。可是与此同时,高频率的开关使得开关损耗非常严重,还伴随着发热现象,其效率也不如人意,并且这也使得电磁干扰变强。为了解决这一问题,软开关技术得以出现,它的目的主要是降低开关的损耗。论文首先对谐振变换器的发展背景以及趋势做出了说明,然后对相关的理论知识尤其是软开关技术展
CAN是一种串行通信协议,开发之初主要用于连接汽车和卡车的传感器和电子模块,由于CAN总线数据传输的高可靠性,在各种电气领域上的应用越来越广泛。外部的雷击和ESD等电气瞬变会对CAN总线数据传输和硬件带来不可预知的损坏,因此,针对CAN总线就需要给出一系列的保护措施,比如在端口上加入TVS保护器件,基于此,文中重点开展了一款保护CAN总线的TVS二极管的设计和分析。主要工作如下:1、针对CAN总线
深度神经网络算法具有很高的精度,因此受到很多智能计算领域的关注。但是深度神经网络算法的高精度是以巨量的参数和计算量为代价的,这阻碍了大规模的神经网络算法应用在存储空间、能量和计算能力有限的智能硬件平台中。理论上,神经网络的剪枝技术可以大幅度的降低深度神经网络的数据规模和计算量。但是,由于经过剪枝处理的稀疏神经网络的数据具有不规则性,现有的硬件平台执行稀疏神经网络算法面临两个挑战。第一、数据的访存效
随着电子技术的发展,人们对于集成度高、效率高、功能多的的工业电子产品的需求越来越大。半桥变换器由于其结构简单,电压应力小于其它隔离式拓扑,在输入电压高于开关管耐压的场合有着广泛应用。本文着重于输出低电压大电流场景的应用,研究与设计了一款集成同步整流技术、应用于半桥拓扑的PWM控制器。本文回顾了PWM控制技术的原理和控制方式,由于电压型模式的抗噪能力强、调试电路较简单,故选择了电压型模式。并且为了提
人工智能的快速发展,使得工厂的生产方式日益智能化,人机交互在生产过程中的应用越来越广泛。语音是人机交互的一种重要方式。现如今语音识别技术已经逐渐成熟,在无噪音的场景下可以准确识别大多数语音指令。然而,工厂的环境不是安静的,会掺杂复杂多变的噪声,这对于语音人机交互会产生严重的干扰,降低语音识别准确率和生产效率。语音增强技术用于将纯净语音从带噪语音中分离出来,提高目标语音的清晰度和可懂度,从而保证人机
随着计算机技术与通信技术的不断进步以及传感器设备的不断发展,工业领域中的传统制造不断向智能制造进行着转变。其中,工业领域中物料搬运系统的发展与通信系统的发展是智能化转变中的重要组成部分。传统的物料搬运系统一般以AGV作为运输工具,但是传统的AGV存在许多问题,例如状态数据监控数据量大、不能进行实时环境建图以及共享性差等问题。针对这些问题,本文以AGV为研究对象,通过阿里云平台、ROS以及Kafka
AGV运输系统具有移动载物、安全避障等多种功能,在智能制造中的作用越来越大。AGV在企业制造加工过程中可以灵活搬运各种物料,降低企业人力运输成本,实现物料仓储的完全智能化流程管理,缩减仓储物流费用。本文以智能化制造过程中的AGV路径规划与调度作为主要研究目标,使生产系统能够获得更高的生产效率,从而减少作业成本,提升企业效益。本文介绍了AGV的研究背景以及意义,对国内外关于AGV的研究现状以及路径规
近年来,基于卷积神经网络(Convolutional Neural Networks,CNN)的机器视觉方法已成功应用于安防检测和目标检测等应用。随着CNN模型的改进,计算和存储的需求急剧增加。然而,在一些低功耗的边缘计算设备中,功耗是重要指标,这便限制了卷积神经网络算法对低功耗设备的支持。现场可编程逻辑门阵列(Field Programmable Gate Array,FPGA)具有可配置性和开