面向低成本FPGA的深度神经网络加速器研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:webgame1209327274
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,以神经网络为基础的深度学习技术成为当前研究的热点。然而,神经网络在性能提升的同时,其具有的复杂结构却制约了神经网络在终端应用场景的发展潜力。低比特DNN是神经网络发展的新分支,具有计算强度低与存储需求小等优点;低成本FPGA是实现DNN加速的主要硬件平台之一,具有灵活性高、开发周期短等优点。因此,低比特DNN与低成本FPGA为在边缘端实现高性能的DNN加速器提供了良好的解决方案。但是,在实际部署时,FPGA与低比特DNN固有的不匹配性制约了低比特DNN在FPGA上的应用潜能。本文面向低成本FPGA,针对低比特DNN加速的关键技术进行研究,具有重要的理论意义和实用价值。本文所做的工作总结如下:1.针对FPGA与低比特DNN的不匹配问题,本文提出了一种BRAM和DSP协同处理的电路架构。通过利用卷积参数的重用性,数据缓存单元(BRAM)单个地址存放多个低比特数据,DSP单个时钟周期计算多个低比特数据的乘法。在计算时,只需从缓存单元中读取一次数据,多个DSP可同时执行多个卷积核与多个输入图的卷积结果。既提高了DSP的计算效率,又减少了数据的访存次数,从而提高了DNN加速器的性能。2.本文提出了一种通用的数据流,可支持多种类型卷积的计算。在数据传输时,将高维的卷积核与输入图转换成二维数据,并在多个并行的缓存单元(BRAM)中按序排列。在卷积计算时,可根据卷积类型调整数据的输出顺序支持多种类型卷积的计算,从而支持多种DNN模型的计算,具有较强的通用性。3.本文实现了面向低成本FPGA、基于低比特DNN的通用型DNN加速器。与CPU运行Mobile Net V2相比,本文提出的DNN加速器在性能上提升了3.27倍;与同类型的DNN加速器运行Mobile Net V2相比,本文提出的DNN加速器在DSP能效上分别提升了12.8%与109%。
其他文献
随着机器视觉在自动化生产领域的广泛应用,在测量和装配设备中加入视觉系统,根据视觉定位的结果引导设备执行后续任务,对提高设备的感知和决策能力具有非常重要的意义。本文以机器视觉和图像处理技术为基础,主要对测量仪器及装配机械臂等设备的视觉引导及定位技术进行研究。对相机的成像原理及双目视觉成像模型进行分析,对张氏标定法进行了详细的推导,选取合适的相机与镜头设计并搭建了标准的双目视觉系统实验平台,通过标定实
随着计算机视觉技术的不断发展,图像已经成为传递信息的重要媒介,如何从海量的图像数据中获取人们需求的高质量的图像显得尤为重要,图像修复作为图像处理中的关键技术,已经成为计算机视觉领域重要研究课题之一。近几十年年来,国内外学者基于数学建模等理论对图像修复做了深入研究,并尝试将其从实验推广到实际应用。然而,实际应用中图像受损区域复杂多变,传统图像修复算法难以完成高质量的修复过程。近年来,深度学习凭借其对
人工智能自出世以来几经沉浮,终于在算法突破、算力提高及海量数据的推动下于21世纪迎来了质的飞跃。卷积神经网络(Convolutional neural network,CNN)作为代表算法之一,在医学、无人驾驶、语音识别等领域都表现优异。CNN需要对大量测试样本进行训练从而更新网络参数,想要获得更高的识别精度,其代价是更多的网络参数和更大的计算复杂度。Winograd算法可通过减少卷积层所需的乘法
目标检测作为计算机视觉的重要研究内容之一,在工业,军事,智能监控,人脸识别,多目标追踪,自动驾驶技术等领域有着广泛的应用。当前,随着人工智能与自动驾驶等技术的研究不断推进,基于深度学习的目标检测越来越成为国内外学者们研究的热点。基于Darknet53特征提取器的YOLOv3网络模型具有检测精度高,检测速度快等优点,但仍存在对于小目标检测能力不够强,边界框定位不够精准以及模型权值文件较大等问题。为此
食品中添加食用色素来吸引消费者已经成为了一种常用的手段,但生产者往往基于利润或其他原因对食用色素的使用量控制不当。在本项工作中,我们以日落黄为研究对象,基于电化学检测,成功制备了一种基于电解质溶液栅控石墨烯场效应晶体管(SGGT)的高灵敏度日落黄传感器,可以用来检测饮料中日落黄的浓度。日落黄传感器的检测机理主要是利用日落黄分子可以在栅极附近发生一个单电子的氧化还原反应,造成等效栅极电压的变化,进而
光学成像系统对处在焦深范围内的物体成像清晰,超出焦深范围的部分,会产生成像模糊现象。在显微光学成像系统中,由于成像物镜的焦深随着光学倍率的增大而减小,导致倍率越大的成像系统,只能获得更小景深的清晰像,如Mitutoyo M Plan Apo2X显微物镜的焦深只有±91μm,20X的焦深只有±1.6μm。因此,研究大景深成像方法具有重要的应用价值。叠焦合成扩展景深是显微成像中一种获得大景深图像的有效
随着国内经济的高速发展,越来越多的国民拥有汽车,但是车位的供需矛盾不断凸显。相比以前的停车库,立体停车库因停车使用率高而且智能等很多优势,立体停车库将取代传统停车库。立体停车库作为高大空间建筑,其内部结构极为复杂,运行机制较为繁琐,一旦发生火灾,车辆无法及时撤离,很容易造成二次爆炸等事故。因此对立体车库内部火灾的早期探测、精确定位以及自动灭火是非常必要的。立体停车库内部结构极为复杂,本文针对立体车
随着网络和计算机视觉的发展,各式各样的媒体和应用出现在人们生活当中,随之带来的网络和信息安全问题,受到了广泛关注。人脸识别技术,以其非侵入性的特点,成为人工智能领域备受关注的技术之一,在视频监控、人机交互和安全系统等实际应用中具有重要意义。现阶段的正面人脸识别技术在精确度方面已经达到很高,但是在有部分遮挡时,算法识别精确度有待提高,且模型比较庞大。针对这些问题,本文改进了一种基于FaceNet的算
近年来,神经网络加速器与IoT设备相结合的AIoT设备被广泛应用到多个领域。但较小的晶体管尺寸和较低的供电都会提高AIoT处理器软错误发生的概率,从而导致神经网络加速器出现大量计算错误。在这种情况下,若直接将离线训练好的神经网络部署到加速器上,会导致相当大的预测精度损失。而传统的容错技术(如三重模块化冗余)会带来相当大的功耗和性能损失。因此,国内外学者通过研究神经网络自身的特点发现可以对神经网络进
增材制造技术是一种逐层堆积的新型制造方法,与传统减材制造相比具有工序简单、成型效率高等优势。在粉末床金属增材制造中,金属粉末的快速熔化和凝固会产生陡峭的温度梯度,在成型零件内部产生较大的残余应力,导致翘曲变形和裂纹等缺陷,最终影响零件的整体性能。扫描策略是影响成型零件质量的关键因素之一,在粉末床增材制造成型薄壁件中,用常规的扫描路径很难获得质量理想的成型零件,为了减少薄壁件成型过程中的残余应力并控