二值卷积神经网络加速器的VLSI架构设计

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:zhushuangwu1999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
卷积神经网络在图像分类领域应用越来越广泛,网络规模逐渐增大,有限的乘法器资源和片上存储空间难以满足卷积网络计算高并行性和日益增多的浮点数权重存储需求。二值卷积神经网络是一种量化的卷积神经网络,权重量化为+1或-1使得卷积计算时可以避免乘法运算,并且二值化权重使用1 bit表示,有效降低了权重参数存储空间需求。本文重点研究二值卷积神经网络及其加速器VLSI架构的设计,充分利用二值卷积神经网络的特性,设计低功耗、高并行、高能效二值卷积网络加速器,完成逻辑综合、布局布线以及板级验证。本文主要工作如下:(1)设计了一种二值编码激活函数,在前向传播过程中使用同或和比较运算替换中间BN层的乘法运算,从而减少了乘法运算次数,同时在全二值卷积层将中间特征图数据量化为整数,降低了中间特征图存储需求。(2)基于二值图片输入,设计了一种BNET-6网络加速器,使用脉动数据流和层间流水线提高计算并行度。使用二值编码激活函数,中间特征图存储减少72%。在 120 MHz 时,FPS 为 23080@28×28,推理 MNIST 测试集精度降低 0.13%。根据在VC707 FPGA芯片上的实现结果,片上功耗为0.67 W,GOPS/W为332.3,与完成MNIST图片推理且较先进的二值网络加速器相比,GOPS/W提升11%。(3)基于浮点图片输入,设计了一种BNET-12网络加速器,使用层间流水线提高计算并行度。使用二值编码激活函数使得中间特征图存储减少50%,使用层间流水线结构使得中间特征图存储进一步减少48%。在120 MHz时,FPS为9230@3×32×32,推理SVHN测试集精度降低0.17%,推理Cifar10测试集精度降低0.56%。根据在VC707 FPGA芯片上的实现结果,片上功耗为4.9 W,FPS/W为1883.7,与完成Cifar10图片推理且较先进的二值网络加速器相比,FPS/W提升1.5倍。(4)设计了一种包含7×22可重构脉动阵列的BNET-5网络加速器,可以配置完成7×7、5×5、3×3卷积和全连接计算。使用二值编码激活函数使得中间特征图存储减少71%。在120 MHz时,FPS为6700@28×28,推理MNIST测试集精度无损失。根据在VC707 FPGA芯片上的实现结果,片上功耗为0.51 W,GOPS/W为41.0,FPS/W为13100,与完成MNIST图片推理且网络参数规模接近的16 bits定点卷积网络加速器相比,FPS/W提升5.5倍。
其他文献
随着互联网技术迅猛发展,网络信息量呈几何式增长,为人们的日常生活带来了巨大的便利,但是同时这也给人们带来了信息过载的问题。在这种情况下,推荐系统应运而生,个性化推荐
近年来,随着技术的日趋成熟和人类对环境污染问题的愈加重视,风力发电在发电总装机容量中占得比重越来越大。由于工作环境恶劣且风速及方向随时都在变化,导致风力发电机组长
近年来,钢筋锈蚀所引发的混凝土耐久性能退化的问题越发突出,也受到各国学术机构、学者以及技术人员的重视,并进行了大量的钢筋锈蚀方向研究论文。研究钢筋混凝土耐久性退化,
混凝土结构是世界范围内广泛应用的一种建筑材料,在正常合理的使用条件下,钢筋与混凝土之间良好的粘结性能够使构件的性能得到充分发挥。但是,混凝土的碳化、氯离子腐蚀等多
近邻分类是机器学习的重要研究内容之一。其中K近邻分类算法是一种非常典型的非参数懒惰学习方法,因其简单有效等特性被广泛应用于各个领域。但是它存在的弊端也逐步显现,其
固体火箭发动机作为推进系统,在航空、航天以及导弹武器领域占据重要地位,在固体火箭发动机研制和使用的过程中,有时会出现不稳定燃烧现象,导致发动机无法正常工作。目前,随
传统的奈奎斯特定理规定,采样频率必须达到信号带宽的两倍以上才能对原始信号进行精确的重构。然而,随着信息的爆炸式发展,如果按照传统的采样理论对图像和视频等信息进行采
停走交通是公路交通网络受到诸如道路瓶颈、交通事故、天气变化、特殊事件、政府管制、驾驶习惯等因素的影响而产生的交通流量周期性波动现象。车辆在停走交通环境下行驶时,
随着信息时代的来临,如何从海量的自然语言数据中获取到有用的信息是当今社会一个非常重要的问题。自然语言数据不同于其他类型的数据,它包含着人类语言的特性,需要借助一些
多智能体系统的编队控制是当前热门的研究课题,而避障问题更是其中一类基本问题。多智能体系统依靠几个智能体简单的组合并不能充分发挥其优势,只有通过某种形式的合作才能在