基于ZYNQ的卷积神经网络加速设计与实现

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:cart008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
卷积神经网络作为深度学习领域的杰出算法愈发受到研究人员的关注,其在图像分类、语音识别、目标检测及自然语言处理等领域都有着十分优异的表现。然而,卷积神经网络十分庞大的参数量和计算量给硬件平台带来不小的压力,FPGA凭借其高度并行化计算、可反复编程以及低功耗等优势成为硬件加速卷积神经网络的研究热门。本文完成了基于ZYNQ-XC7Z020平台对卷积神经网络的加速设计,ZYNQ芯片中集成了ARM处理器和FPGA,适用于嵌入式系统的软硬件协同开发。本文的主要工作如下:首先,确定硬件加速的具体网络是轻量级目标检测模型YOLOv3-Tiny,对该网络的结构和参数特点进行分析并确定网络数据的量化方式为16位定点量化。研究分析了卷积神经网络在FPGA硬件平台上的多种加速方案,最终结合YOLOv3-Tiny网络特点与ZYNQ-XC7Z020平台硬件资源制定了更为合理的混合并行加速策略。随后对网络参数的存储排布方式进行优化并制定了网络数据在ZYNQ上的移动策略,基于数据移动策略和并行加速策略在Vivado HLS中完成加速IP核的设计及封装。最后在Vivado IDE和Xilinx SDK中完成系统的软硬件设计,实现了ZYNQ平台对YOLOv3-Tiny网络的加速,分析实验结果并与其它硬件平台加速效果进行对比。实验中ZYNQ-XC7Z020平台的运算吞吐量达到9.12GOPS,其运算性能是ARM Cortex-A9处理器的228倍,是Intel i5-9300H CPU的11倍。平台共消耗了79%的DSP资源,BRAM资源消耗量为66%,系统的硬件总功耗为2.141W,满足了基于ZYNQ平台对YOLOv3-Tiny网络低功耗、高性能的加速设计要求。
其他文献
读图时代的到来,让我们在网络社交中形成了独特的交流风格。当下的网络社交活动离不开表情包的参与,它承担的不仅是简单的表情符号意义,还是网络世界中一种新的符号表意方式。“萌文化”的出现,让热衷于互联网的青年群体受到这些文化所携带的情感和视觉的冲击,也推动了“萌系”表情包在微信平台上的传播。在年轻人的语言中,“萌”被赋予了以“可爱”为中心的丰富意义,他们在进行网络人际传播时,将“萌系”表情包运用其中,以
近年来,深度学习由于其出色的表现在计算机视觉,语音识别,情感分析等研究领域都取得了十分优异的成绩,大量的关于深度学习的应用出现在我们的日常生活中,为丰富我们的生活提供了许多的便利。但是最新的一些研究工作证实,在各个领域表现出色的深度学习模型非常容易受到攻击者的影响,当攻击者在输入样本中增加一个十分微小的扰动就可以导致深度学习模型给出错误的分类结果。但到目前为止,在对抗环境下对深度学习脆弱性的研究主
聚类是机器学习领域处理数据的重要方法,在众多学术领域中被广泛地应用。例如,目标用户的群体划分、不同产品的价值组合、探测发现异常值等。在这些场景下的数据的密度通常都是不均匀的,因此在这样的数据集上进行的聚类,要求聚类算法适合非均匀密度数据集。但传统的聚类算法在非均匀密度数据集上的聚类效果并不理想,并且传统聚类算法对参数依赖严重。针对上述问题,论文提出了一种基于图像分割模型的密度聚类算法DCABISM
目前传统的视频分类方法是基于人工提取的特征,这种方法在早期任务中取得了较为优秀的性能,但传统方式非常依赖特征提取算法以及特定任务的知识,因此,目前已过渡到基于深度学习的方式。解决该问题的传统深度学习算法是基于双流卷积神经网络结构,将网络分为空间流与时序流,分别使用视频帧和密集光流输入网络,获得最终分类标签。但传统方式存在一定弊端,即以密集光流作为特征,该特征目前的提取算法计算量庞大,且极其耗时,无
在农业领域,随着信息科技的高速发展,传统的手工劳作方式逐渐被智能化作业所代替。农业机器人的引入既提高了劳动效率和作物产量,又带动了农业经济的发展。众所周知,导航系统是农业机器人进行田间劳作的关键,这对于精准化作业来说至关重要。因此,针对农业机器人的导航系统研究已经受到越来越多学者的重视。本文针对农业机器人采集的田间作物的视频数据,基于深度语义分割模型实现农业机器人的自主实时导航。首先,为了改善低分
毫米波大规模MIMO是未来移动通信最具潜力的研究方向之一。然而,由于大规模MIMO系统中配备多个昂贵的射频链路使得硬件的成本和复杂度大幅增加。天线选择技术通过优化策略选择部分高性能天线通信可以在保证系统性能的前提下简化硬件结构;同时混合波束成形技术利用低维数字波束成形与高维模拟波束成形,大大降低了射频链路数目的需求,与天线选择技术相结合可以进一步降低系统复杂度,提升信号传输质量。但是目前传统的面向
深度卷积神经网络(Deep Convolutional Neural Networks,DCNN)已成为深度学习中用于数字图像内容分类的关键算法之一,这是因为DCNN可以从足够多的训练数据中学习到具有高度代表性的分层图像特征。但是,DCNN的计算复杂度要比经典算法的计算复杂度大很多,这造成了基于中央处理器(Central Processing Unit,CPU)或图形处理器(Graphics Pr
在过去几年里,深度学习一直是人工智能取得成功的基础,但是巨大的计算复杂度和庞大的存储需求使得它们在实时应用中部署成为一个巨大的挑战,特别是在资源有限的设备上。因此,如何利用压缩和加速技术将模型应用于实际场景中成为了一个研究热点。目前大多数的神经网络压缩方法可解释性较弱,本文选择了可解释方法沙普利值和注意力机制作为压缩依据,并基于卷积神经网络展开研究,主要完成了以下工作:首先基于卷积神经网络模型压缩
在农作物生产中,提高农作物的产量是当今研究中比较热门的课题,也是农作物科研项目里一个重要的研究方向。农作物的生长环境因子和它的产量有着密不可分的联系。因此,本文主要分析农作物的环境因子间以及自身的变化规律,同时研究其预测方法。首先,对本文需要对实验数据进行预处理,即剔除数据中的异常冗余值,得到一套完整且干净可靠的数据集。然后,对环境因子展开三个方面的研究工作:一是环境因子的相关性分析。以皮尔逊相关
卷积神经网络由于能够模拟生物视神经的行为而获得较高的精度,因此被广泛应用于图像识别领域。随着终端应用需求的急剧增加,早期基于CPU和GPU的神经网络计算平台,其体积大、功耗高等弊端越发明显。FPGA作为一种可编程逻辑器件,拥有丰富的可编程逻辑资源,具有功耗低、体积小、可重配置等优点,与卷积神经网络计算特点相匹配,可用于小型嵌入式系统。本文主要研究利用FPGA实现卷积神经网络的方法,主要内容包含卷积