面向稀疏神经网络的片上系统设计与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户：zero_ak47

【摘要】

：

【作者】

：

明小满

【机构】

：

电子科技大学

【出处】

：

电子科技大学

【发表日期】

：

2021年01期

【关键词】

：

稀疏神经网络 RISC-V SoC 神经网络加速器

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

深度神经网络算法具有很高的精度,因此受到很多智能计算领域的关注。但是深度神经网络算法的高精度是以巨量的参数和计算量为代价的,这阻碍了大规模的神经网络算法应用在存储空间、能量和计算能力有限的智能硬件平台中。理论上,神经网络的剪枝技术可以大幅度的降低深度神经网络的数据规模和计算量。但是,由于经过剪枝处理的稀疏神经网络的数据具有不规则性,现有的硬件平台执行稀疏神经网络算法面临两个挑战。第一、数据的访存效率低。第二、稀疏神经网络的解码复杂度较高,解码过程增加了大量额外的计算。另一方面,现有的神经网络算法种类繁多,新的算法不断被提出。CPU+FPGA加速器搭建的领域专用SoC平台同时具备灵活性和高性能的特点,采用这类平台运行神经网络算法是一个不错的选择。基于RISC-V指令集设计的开源SoC生成器Rocket Chip支持实现多种形态的SoC,这为课题研究提供了良好的平台。基于此,本文将面向稀疏神经网络算法的应用设计并实现RISC-V架构的领域专用SoC。为了使稀疏神经网络算法能够在SoC平台中高效运行,本文从稀疏神经网络的权重存储方法和稀疏神经网络加速单元的设计这两个方面展开研究。针对稀疏神经网络中数据访存效率低的问题,本文提出了动态ELL编码压缩存储稀疏权重的方法,并且根据神经网络的算法特点,基于动态ELL稀疏权重编码和直接存储方法提出了混合存储权重的策略。将采用这种混合存储权重的CNN运行在配置有通用神经网络协处理器的RISC-V SoC中,相比于将直接存储稀疏权重的CNN运行在目标平台上,系统整体性能有显著提升。并且随着CNN的稀疏度增加,将采用混合存储权重的CNN运行在目标平台上系统性能提升越多。针对稀疏神经网络解码复杂度高的问题,本文将设计能够筛选有效神经元的稀疏向量内积协处理器。并且在RISC-V SoC中,CPU调用此协处理器执行稀疏全连接层中的向量内积计算,相比于CPU调用通用的向量内积协处理器执行算法,采用稀疏向量内积协处理器有明显的加速效果。并且稀疏神经网络中全连接层的规模越大,稀疏度越高,稀疏向量内积协处理器对系统的整体性能提升越多。总的来说,本次课题研究在一定程度上解决了稀疏神经网络在硬件平台运行过程中存在的问题。课题中提到的稀疏神经网络应用方法,有助于将更大规模的神经网络算法部署到硬件平台。

其他文献

一种基于神经网络的卷积加速器及其后端实现

近些年来,人工智能在各个领域发展迅速,特别是在物体识别,视频监测等方面发挥着十分重要的作用,人工智能所表现出来的卓越成绩和优秀的学习能力,使得越来越多的学者对人工智能产生了极大的兴趣。人的大脑可以控制生物完成十分复杂的学习行为,受此启发使得神经网络得到了发展,卷积神经网络作为神经网络的重要分支,具有容易实现且易训练的特性,同时,卷积神经网络的运算速度也使其发展面临着更严峻的挑战。因此本文提出了一种

学位

卷积神经网络物理实现人工智能

快速超精度卷积神经网络（FSRCNN）的FPGA设计实现

实际生活中我们常常需要对模糊图像进行处理,不管是由相机抖动,还是噪声干扰、本身分辨率不够等原因引起的,都需要一种有效的方法将不清晰的模糊的图像变为清晰的图像。近期,越来越多的卷积神经网络模型被提出,可以快速高效地实现超精度图像重建的功能。经过前期的文献调研,发现快速超分辨率卷积神经网络（Fast Super-Resolution Convolutional Neural Network,FSRCN

学位

现场可编程门阵列快速超分辨率卷积神经网络超分辨率图像重建

多精度神经网络加速阵列研究

卷积神经网络自问世以来一直在计算机视觉领域发挥着重要的作用,随着科学研究的进步和技术的发展,卷积神经网络能够胜任愈发复杂的任务。然而随之而来的后果是模型越来越复杂,参数量也在不断地提升,神经网络的训练和推理需要消耗大量的时间资源以及硬件资源。传统的通用芯片如CPU、GPU平台在处理复杂神经网络模型的问题上遇到了瓶颈,于是人们开始把目光投入到专用加速芯片的研究上。研究人员通过针对性的体系结构设计,采

学位

卷积神经网络专用神经网络加速芯片芯片验证通用验证方法学

多模式感知传感器接口的模拟前端电路研究与设计

近年来,智能传感器在人们的生活中占的比重越来越大,多传感器微系统在工业界受到广泛关注。传感器的模拟前端主要包括接口电路和模数转换器（ADC）,其作用是将各种携带传感信息的非电或电可转换信号转化为电压\电流信号,最终输出数字二进制码。针对于特定架构和功能设计的模拟前端电路不适用于物联网无线多传感器节点系统,因为这些专用模拟前端无法有效利用高度集成微系统中的共享资源。在可穿戴智能设备、生物医疗电子设备

学位

模拟前端多模式传感器接口电路时间域ADC电压延迟电路

一种与CMOS工艺兼容的硅基生物传感器研究

科技改变生活。普通传感器因为非智能化等原因将不能适应万物互连的智能时代。智能时代对传感器提出了更高的要求,因此智能传感器走入人们的视野。智能时代需要更加便携、高效的智能传感器,智能时代对智能传感器内部集成电路提出更高的要求。因为光互连技术能让智能传感器微型化、精准化、高效化,所以光互连技术将成为集成电路领域的研究重点。单片集成是智能传感器微型化和高效化的另一条件。目前的集成工艺多采用标准互补金属氧

学位

硅基光源全硅光电生物传感器硅光波导单片集成倏逝波

基于TFET超低功耗神经元设计

人工智能神经网络已成为当下信息处理技术领域的重要发展方向,相对于软件实现人工神经网络,硬件实现人工神经网络有可以大批量并行处理数据的优势。目前大多数硬件实现的神经元电路由MOSFET器件构成,对于规模越来越大的人工神经网络,电路功耗问题日益严峻。随着器件特征尺寸不断减小,MOSFET器件在纳米量级下短沟道效应越来越严重,使器件功耗和性能恶化,限制了低功耗神经网络的发展。而基于量子隧穿原理的TFET

学位

隧穿场效应晶体管亚阈值区突触神经元

一种新的DRL算法的实现及硬件加速器研究

近年来随着人工智能AI（Artificial Intelligence,AI）领域不断发展创新,深度强化学习异军突起,在工业制造、金融学、心理学、医疗学、汽车自动驾驶等领域得到了广泛的应用。深度强化学习将深度学习与强化学习技术结合,经过近几年的迅猛发展,许多算法相继提出,如A3C（Asynchronous Adavantage Actor-Critic,A3C）,TRPO（Trust Region

学位

深度强化学习DRL算法硬件加速GPUFPGA

基于多传感器信息融合的机器人建图研究与实现

移动机器人建图研究,是近年来快速发展的移动机器人领域中,最为基础与核心的技术。机器人要实现复杂环境下的精确运行,就要以高精度点云地图作为参照。机器人在环境中的自主运动过程可分为以下几个步骤:由各类传感器采集环境数据,将原始数据传输到工控机的机器人操作系统中,按预定规则进行数据运算处理,得到动作指令或姿态位置数据,其中动作指令被传输到电机驱动部分,姿态位置等数据则进行存储及下一步处理。本文提出了一种

学位

多传感器融合激光SLAM超声波GPS定位感知

一款半桥拓扑谐振控制器的研究与设计

随着电子产品的发展,需要满足更高的应用指标,在不增加变换器的体积和重量的前提下,我们不得不追求更高的工作频率来提高开关电源的功率密度。可是与此同时,高频率的开关使得开关损耗非常严重,还伴随着发热现象,其效率也不如人意,并且这也使得电磁干扰变强。为了解决这一问题,软开关技术得以出现,它的目的主要是降低开关的损耗。论文首先对谐振变换器的发展背景以及趋势做出了说明,然后对相关的理论知识尤其是软开关技术展

学位

谐振变换器软开关脉频调制

应用于CAN总线静电保护的低电容TVS二极管设计

CAN是一种串行通信协议,开发之初主要用于连接汽车和卡车的传感器和电子模块,由于CAN总线数据传输的高可靠性,在各种电气领域上的应用越来越广泛。外部的雷击和ESD等电气瞬变会对CAN总线数据传输和硬件带来不可预知的损坏,因此,针对CAN总线就需要给出一系列的保护措施,比如在端口上加入TVS保护器件,基于此,文中重点开展了一款保护CAN总线的TVS二极管的设计和分析。主要工作如下:1、针对CAN总线

学位

CAN总线TVS二极管低电容浪涌保护

面向稀疏神经网络的片上系统设计与实现

与本文相关的学术论文