卷积神经网络硬件加速器的设计及实现

来源 :湘潭大学 | 被引量 : 0次 | 上传用户:hwguomin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
卷积神经网络被广泛应用于人脸识别、语音识别、文档分析、车牌识别、图像识别和目标检测等领域。随着更多深度卷积神经网络应用的发掘,如何提高图像处理过程的性能成为至关重要的问题。目前,卷积神经网络多数是基于通用处理器中央处理器(Central Processing Unit,CPU)或图形处理器(Graphics Processing Unit,GPU)来实现,即比较灵活的软件实现,而作为层与层之间没有数据反馈的前馈神经网络,它的算法中是具有高度并行性的,通用处理器受限于其自身只为完成逻辑计算的特点,不适合挖掘卷积神经网络的并行性。因此,从系统计算速度和功耗方面考虑,相比软件的实现方式,硬件的近似方法、定点化实现方式具有更低的能耗,还可以降低处理器负担。本文提出了卷积神经网络的硬件加速方案,合理化加速器架构设计,并在数据传输上进行创新改进。直接存储器访问(Direct Memory Access,DMA)是快速传输成组数据的一种方法,本文创新性地提出了一种专用于卷积神经网络硬件加速器的DMA控制器。整个架构有四个DMA控制器,每个DMA控制器支持单通道传输,可以并行工作互不影响。DMA控制器支持多种操作模式,除基本的直接内存访问模式,还包括三维数据变型模式,极大提高了加速器的工作效率。DMA控制器基于三维数据变型模式,还支持数据在加速器内部存储的不同区块间搬运,此功能主要是针对卷积的中间结果。中间结果在参与下层计算时如果需要三维数据变型,则可以通过配置DMA控制器参数,将内存的源区块数据取出,变型后再送到目标区块中去,而无需送到外部存储器后再加载进来,这样不仅降低带宽的压力和出错的概率,更节约了时间。现场可编程门阵列(Field-Programmable Gate Array,FPGA)是作为专用集成电路的一种半定制电路而出现的,它不仅具有丰富的硬件资源,灵活且可配置的优点,更以其功耗低、开发周期短的优势,可以作为实现卷积神经网络很好的平台。加速器基于FPGA进行原型验证,手写数据集(Mixed National Institute of Standards and Technology database,MNIST)和VGG16(Visual Geometry Group)网络测试结果表明,具有高达98%的数字分类准确率,网络运算硬件加速效果极为显著,相比软件实现提升两个数量级。
其他文献
本文作者主要从由FRIATEC公司生产的安全管件一可带压安装鞍型三通(DAA)结构特点、适用范围以及实例探讨带压安装鞍型三通(DAA)技术在城市燃气管网管网中的应用。
分析了山西省“两区”农业开发中小杂粮的优势和潜力,对国内外小杂粮市场需求进行了战略性预测,提出了全省小杂粮产业化发展中存在的问题,重点就“两区”的小杂粮产业化开发提出
工匠精神自提出以来就受到各界人士的广泛关注,培养工匠精神对建设制造强国至为重要,其中技能型人才的培养需要从学生起便注重其工匠精神的培育。笔者从工匠精神的内涵出发,
新建立高职院校处于办学探索阶段,人体解剖生理学课程教学还未十分成熟。为此,在课程设计、教学方法等教学问题上,应从新建立高职院校出发并结合该课程特点,多加思考和探讨,
本文通过数理统计分析方法分析了合金元素对力学性能的影响,通过相关系数分析得出舍金元素与性能的相关显著性,通过t检验分析了Cr变化对性能影响。
审计和纪检监察作为党和国家监督体系中的重要组成部分,在高校规范运行过程中具有不可替代的作用。随着全面从严治党的不断深入推进和国家治理体系建设的要求越来越高,对高校
目的:探讨高职院校护理专业学生职业体能的现状。方法:对广州卫生职业技术学院护理专业在校学生和各类医院的护理人员实施调查问卷及座谈讨论。结果:多数护理专业在校学生对
目的:探讨母婴服务行业发展视角的"产教融合、实践管理"助产专业实体建设的应用效果。方法:广东省食品药品职业技术学校医护系助产专业与广州市开发区医院为了促进助产专业与
目标辐射噪声低频线谱丰富,线谱相对谱级高,且较稳定,可直接应用于目标检测。基于子带分解处理的现有融合方法适用于信噪比相对较高情况,而对于相干干扰噪声或强宽带噪声,线谱目标
目的探讨实验室指标对重症肺炎支原体肺炎(Severe Mycoplasma Pneumoniae Pneumonia,SMPP)的早期预测,并指导临床早期识别SMPP。方法选择河北省人民医院2017年9月至2019年12