基于FPGA的卷积神经网络加速器的研究与实现

来源 :沈阳化工大学 | 被引量 : 1次 | 上传用户:cheqiu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,卷积神经网络(Convolutional Neural Network,CNN)在图像识别、语音识别和自动翻译等方面取得了良好的效果。然而,为了解决复杂的抽象问题,追求更高的识别准确率,卷积神经网络模型层数、结构复杂度和计算量不断增加。在通用计算平台加速卷积神经网络具有较高的性能,但会带来功耗高和便携性不足等问题,难以满足可移动、低功耗等嵌入式场景的要求。现场可编程门阵列(Field Programmable Gate Array,FPGA)拥有并行计算、低功耗和可灵活配置等特点。通过其硬件加速卷积神经网络,可以显著提高计算的性能并降低功耗,并且FPGA加速CNN已成为目前本领域研究的热点。然而,将卷积神经网络部署到FPGA时存在资源受限、参数量较大和访存频繁的问题。因此,本文研究并实现了一种基于FPGA的卷积神经网络加速器。针对上述研究背景和问题,本文主要做了以下研究工作:1、本文针对大规模神经网络硬件化过程中,无法将每层神经网络都进行硬件化的问题,提出了一种可配置的硬件功能模块计算与存储方法。该方法结合了FPGA并行计算和软件可灵活配置的特点,可以显著提高加速器的运算效率。2、本文针对如何提高片上存储资源使用效率的问题,在充分开发卷积运算中数据重用的基础上,提出一种参数量化和重新排序的内存优化方法。在精度损失较小的情况下,显著地减少了内存占用和访存次数,提高了带宽的利用率。3、本文针对卷积过程中不同循环展开之间并行度不同,会造成硬件资源利用率低的问题,提出了一种并行处理单元阵列,该阵列可以实现卷积核内、滑动窗口间和输出特征图通道间多个维度的并行计算。通过多次复用输入特征图的像素和权重参数,减少了数据的传输次数,显著地提高了加速器的并行计算能力。本文采用ZYNQ XC7Z100芯片进行加速器的实现与测试验证。实验结果表明,该加速器在工作频率为100MHz下,处理一张224×224的图片所需要的时间为15.10ms,功率为2.47W,能耗为0.16KJ,平均性能为80.88GOPS,性能密度为0.47。与现有的卷积神经网络加速器相比,性能密度提升了1.14~1.76倍。综上,本文提出的硬件加速器可以获得更好的加速性能,具有重要的应用价值。
其他文献
5G技术的强劲崛起使得社交化在线平台发展日趋完善,完善的社交化在线平台逐渐发展为社交—电商为一体,形成社交—电商闭环模式,一批又一批不同领域的达人通过种草、拔草等在线口碑传播信息促进信息流通,提高用户粘性,越来越多的用户参与到社交化在线平台的构建中,不仅促进社交化在线平台的发展,而且用户自身价值在口碑传播过程中也在不断提升。目前,在线化社交平台中的用户基于自己的真实体验,对某一产品、服务及活动等发
学位
三字成语即三个字的成语,是一类特殊的成语,属于多词表达的一种类型。三字成语通常言简意赅,具有多重语义,相比于四字成语有很多不同之处,且多用于日常生活中带有感情色彩的的情景中。在自然语言处理中,三字成语识别逐渐被重视起来,但在识别过程中也存在一些问题:(1)三字成语多出现在口语方面,口语性强,用在书面文章中较少,规范性不高。(2)三字成语的语义典故性强,语法结构比普通词语更加复杂,因此识别效果不是很
学位
随着人们生活和科技水平的提高,图像处理和模式识别取得了巨大的进步。花卉类别识别作为一种典型的细粒度图像识别任务,是计算机视觉和林业信息化领域最热门的研究课题之一。随着人们对花卉识别应用需求增加,将花卉识别算法部署在网站上成为了一项迫在眉睫的任务。传统机器学习的花卉识别算法相对成熟,但是传统的花卉识别方法都是通过专家手动选择多个特征进行分类,面临分类结果准确率较低、泛化能力较弱和分类时间较长等问题。
学位
随着社会的发展,人工智能技术也正逐步融入人们的生产生活中去。移动机器人技术已经在物流、军事和服务等方面取得了阶段性的成果。在机器人领域的发展过程中,路径规划技术作为其中一环,充当着极为重要的作用。路径规划问题是指机器人从起始点到终止点能够自主地找到一条无碰撞的最优路径。传统的路径规划算法包括A*算法、D*算法,它们使用了数学建模的方法进行路径规划。此类方法在环境改变的同时都要重新进行一次机械性计算
学位
句法分析是自然语言处理(Natural language processing,NLP)的一项关键技术,在NLP领域起着承前启后的作用。依存句法分析是一种重要的句法分析技术,它的表现形式相对更为简洁直观,而且能取得很高的精度,所以在句法分析中应用比较广泛。目前存在的依存句法分析方法主要基于规则、统计和深度学习的方法,例如条件随机场(conditional random field algorith
学位
随着工业以太网技术的不断发展,实时工业以太网已经成为数控系统进一步成长所依赖的关键技术,近几年涌现出了一大批优秀的工业现场总线标准,其中,实时工业以太网Ether CAT因其出色的高速性、实时性、灵活性等特点成为了数控领域新的研究热点,受到了越来越多企业的关注。为了在高端数控系统中实施高性能的Ether CAT总线,本文提出了一种新的解决方案,使用基于ARM Cortex-A8内核的AM3354作
学位
多智能体路径规划(Multi-Agent Pathfinding,MAPF)是计算机游戏、仿真软件、机器人等领域亟待破解的难题之一。关键是约束多个智能体能够同时沿着多条路径完成任务,并且过程中不发生冲突。在发生冲突时,需要为发生冲突的另一个智能体寻找其他路径或进行等待操作。目前各行业为提高多智能体路径规划的效率,更加关注完整并且实时的解决方案,但是由于状态空间的大小和分支因素,传统的多智能体路径搜
学位
汽车内饰装配件装配后的质量检测是装配的重要阶段,是确保汽车内饰装配件装配高通过率的重要保障。随着现代工业逐渐智能化,人工凭借经验对装配好的汽车内饰装配件进行复核的这种传统方式已经不能满足现代装配的需求。将基于深度学习的目标检测技术应用于汽车内饰装配件检测,成为一种较为前沿的工业零件检测方案。本文针对基于深度学习的汽车内饰装配件检测方法进行研究与实现,主要内容入下:(1)研究图像增强技术。使用工业摄
学位
随着全球经济一体化进程的飞速发展,股票市场在全球经济中扮演着越来越重要的角色,股票市场的准确预测具有重要的社会经济价值。股票市场拥有海量的数据,且股票市场具有非平稳性、非线性、周期性的特点,这样的数据特性对于股票数据的准确预测提出了巨大的挑战。因此,股票预测研究具有重要的学术价值。本文在深入研究股票市场预测问题的特点并且广泛分析已有相关研究工作的基础上,针对股票市场预测技术的关键问题提出一定的解决
学位
目的 分析河南省20~69岁人群高血压患病率变化情况,探讨高血压影响因素。方法 对2000年、2010年和2020年国民体质监测河南省抽样点20~69岁人群体质数据资料中高血压监测指标进行分析。基于2020年调查数据,采用χ2检验对高血压患病情况进行单因素分析,并采用二分类Logistic回归分析高血压患病的影响因素,以P<0.05为差异具有统计学意义。结果 2000年、2010年和2020年共调
期刊