论文部分内容阅读
近些年来,人工神经网络正成为人工智能领域的一个热门问题。其中卷积神经网络是目前发展最快的神经网络,卷积神经网络对算力要求高,运算量大,导致硬件能耗大。脉冲神经网络作为神经网络的另一个分支,使用脉冲信号传递信息,降低网络运算量,大幅提升能效,但是网络的精度较低。脉冲卷积神经网络综合了卷积神经网络的高精度和脉冲神经网络的高能效特性,最近开始发展起来。忆阻器是一种近年来出现的新型器件,其中阻变存储器(ReRAM)以其非易失性、高频率读写等性质被大量学者用来进行神经形态电路设计,是一种很有未来前景的器件。本文在这种背景下,主要研究内容是设计了一种基于ReRAM/CMOS的脉冲卷积神经网络的硬件加速器。文章主要包括以下几个方面:脉冲卷积神经网络模型构建:一种思路是将CNN的权重转换成脉冲卷积网络中脉冲神经元的权重。本文提出基于蒙特卡洛投点法的归一化算法,相比于传统归一化算法,对LeNet-5网络,当优化目标为时延时,可以在SCNN精度为98.04%的情况下,将时延降低42.3%。当优化目标为精度时,精度最高可以达到98.39%。专用脉冲卷积神经网络加速器架构:根据LeNet-5的结构,设计数据流通路和控制流通路,搭建一种处理对应SCNN的流水线数字电路。数据通路中包括专用神经元处理电路和各层之间的数据缓存电路。专用神经元处理电路由分布式存储的权重模块、加法树、脉冲发射和膜电位复位部分组成。在处理MNIST数据集时,比作为参照的同样拓扑结构的CNN消耗的能量减少约50%。可配置脉动处理阵列VLSI架构:本文提出了一种可配置的脉动处理阵列,在阵列中,一列处理单元可以协作实现任意数目突触的神经元,通过配置阵列中处理单元和连线,整个脉动阵列对一幅输入特征图可以实现列并行和核间并行计算。阵列由输入输出模块、调度器模块和处理单元阵列组成。其中处理单元是基于ReRAM/CMOS的混合电路,CMOS电路部分进行神经元膜电位运算和脉冲发射运算,ReRAM电路部分则负责存储神经元突触权重。使用MNIST数据集进行功耗测试,与传统的CPU、GPU等通用处理器相比,本文提出的处理阵列消耗的能量可以降低两个数量级以上,相比于目前较先进的基于ReRAM的CNN处理架构,消耗的能量相差一个数量级以上。