【摘 要】
:
随着神经网络和深度学习等信息技术不断的创新突破,人工智能应用与服务的兴起驱动着智能时代的蓬勃发展。将人工智能应用与服务推向网络边缘,充分释放边缘数据的潜力,实现边缘设备智能化逐渐成为各行业的研究发展方向。边缘智能的实现对设备提出了高算力、高带宽、低延迟和低功耗等需求,以便能够应对各类复杂应用场景,提供高性能的实时计算和更好的服务质量。然而,由于卷积计算较高的计算复杂度和庞大的计算量,在神经网络模型
论文部分内容阅读
随着神经网络和深度学习等信息技术不断的创新突破,人工智能应用与服务的兴起驱动着智能时代的蓬勃发展。将人工智能应用与服务推向网络边缘,充分释放边缘数据的潜力,实现边缘设备智能化逐渐成为各行业的研究发展方向。边缘智能的实现对设备提出了高算力、高带宽、低延迟和低功耗等需求,以便能够应对各类复杂应用场景,提供高性能的实时计算和更好的服务质量。然而,由于卷积计算较高的计算复杂度和庞大的计算量,在神经网络模型中占据大部分的计算时间。因此,通过对卷积算法实现优化设计,减低计算复杂度,可有效提升计算效率。此外,FPGA具备可重构性、低延迟与低功耗的特点使其在硬件部署方面都展现出巨大的优势,具备着巨大的应用潜力以及市场前景。本文基于FPGA的快速卷积硬件加速器设计的主要内容由以下两个方面组成:(1)快速卷积硬件加速器的设计。本文通过对各类卷积算法的研究与分析,总结各自算法特点,并采用Winograd卷积算法实现快速卷积硬件加速器。在加速器的计算模块中利用循环展开减少迭代次数,增加系统并行度。同时,采取流水线设计,提升系统计算效率与吞吐量。在加速器访存优化方面,针对输出访存采取数据复用方式减少冗余访问,并在加速器架构中设计了双缓冲结构,实现乒乓操作,重叠数据传输时间与计算时间,进一步提升系统吞吐率。(2)快速卷积硬件加速器系统性能分析与优化。对目标神经网络模型数据实现定点量化,提升网络模型在硬件平台的计算性能。根据Winograd卷积算法特点,对加速器带宽进行优化设计,对数据存储地址进行重排,减少数据读取时的冗余开销,提升加速器带宽性能。针对快速卷积硬件加速器构建设计空间模型并进行探索,分析特定硬件平台下加速器适配的并行配置。最后,制定加速器实验测试方案,基于Xilinx ZCU102硬件开发平台实现快速卷积硬件加速器。实验结果表明,在200 MHz的工作频率下,加速器计算性能为847.7 GOP/s,与先前工作对比,计算性能与资源利用效率都得到了提升。
其他文献
当前社会,人口老龄化速度明显加快,提醒老人吃药逐渐成为了全社会都面临的一个难题。基于以上现状和目前市面上产品存在的不足,本文设计了一种基于ARM的新型智能药箱系统,智能药箱硬件平台作为实现提醒患者服药的主设备端,通过有线以太网通信与无线通信向远程平台传输数据,用户可通过互联网访问远程平台获取智能药箱的实时数据,实现了整个系统的端云一体化设计。本文选用了STM32F103ZET6作为智能药箱系统的主
随着生活越来越美好,人们对于自身健康情况愈发重视。本文从生物医疗领域的应用背景出发,设计了一款应用于体温监测的RFID芯片。通过调研带温度测量功能的RFID芯片历史以及近几年的发展现状,在麦克斯韦方程的前提下,首先介绍了UHF RFID工作原理,分析RFID系统是如何进行通信,分析了RFID中的能量和数据传输原理。在电路设计方面,设计了一种适合UHF RFID系统的基准电源电路,并且LDO的反馈网
双目三维重建技术以其精度高、实时性好、可以稳定恢复目标场景三维信息的优点,被广泛应用于机器人定位与导航、工业测量以及医学图像处理等领域。立体匹配算法作为双目三维重建技术的核心,受到广大研究人员的关注。本文针对立体匹配算法抗噪声干扰能力差、在深度不连续区域匹配精度较低等问题,设计了一种基于改进局部立体匹配算法的室内场景三维重建系统。在匹配代价计算中,为了提高代价空间对噪声的鲁棒性,提出了一种融合的匹
可靠的防伪手段对有效防范日益猖獗的假冒伪劣至关重要,具有物理不可克隆特点的防伪标签的制备和识别成为研究热点。本文基于原子层沉积技术制备随机褶皱图案作为防伪标签,并围绕标签的识别方法展开研究,旨在获得一种具有极高防伪性能的办法,具体研究内容和结果包括:(1)随机褶皱图案的制备工艺研究。采用丝网印刷制备PDMS图案,作为初级防伪标识;采用原子层沉积(Atomic Layer Deposition,AL
随着深度学习的兴起,卷积神经网络(Convolutional Neural Networks,CNNs)在图像分类、检测、分割和重构等计算机视觉任务中都取得了巨大的成功。早期CNNs的训练和推理均在服务器端进行。近年来,物联网技术的广泛应用促使CNNs逐渐从服务器端向嵌入式移动终端转移。但由于CNNs是典型的计算密集、存储密集的网络模型,资源有限的嵌入式移动终端设备常常不能满足CNNs对计算和存储
随着智能工业的发展,无人机自主管理的需求也在不断上升。在许多应用场景中,比如无人机电力巡检、园区巡检等,这些过程重复且时间规律,采用无人机自动化管理能够节省人力成本,且在某些场景还能降低危险系数。无人机在自主化管理研究中,由于现有民用卫星定位精度不高,无法满足无人机自主降落过程中所需定位精度更高的要求。本课题研究的目标是实现无人机快速自主降落。具体的方法是在无人机返航过程中,首先利用视觉图像处理算
摩擦纳米发电机(Triboelectric nanogenerator,TENG)可以将环境中微小机械能转化为电能,具有制备成本低廉、取材范围广泛、结构多设计样等优点,是一种具有广阔应用前景的自供电器件。追求高输出功率、高电能转化效率一直是该领域重点研究方向,本工作将具有多孔结构的聚二甲基硅氧烷(Polydimethylsiloxane,PDMS)薄膜应用于TENG,并研究器件性能提升技术,具体研
人脸作为最重要的生物特征早已被运用在各行各业当中,移动支付、智能安防、智慧城市等众多领域都可以看到人脸识别的身影。随着智能移动办公概念的提出,人脸识别考勤设备制造行业也迎来了新一轮的革新。多人识别、隐私保护、速度快、准确率高、设备轻便、信息智能化管理等许多要求已经成为其最新的研究发展方向。本文结合最新人脸识别考勤需求,展开基于ARM的动态人脸识别考勤系统的研究与设计,主要工作内容如下:1.本文基于
上转换发光材料因为卓越的发光能力,在医学领域、太阳能领域、红外防伪等方面有着巨大的发展潜力。NaGdF4是上转换效率比较高的基质材料之一,因晶体表面缺陷、荧光猝灭现象等原因导致其发光效率较低。本文通过溶剂热法合成Al3+掺杂的纳米颗粒NaGdF4:Er3+/Yb3+,探究了掺杂0~at.17.5%的Al3+对纳米颗粒物相、形貌及上转换发光性能的影响。采用真空法制备了Ag/介质层/UC层复合薄膜,研
摩擦纳米发电技术是一种性能优越的能量收集和自供电传感技术,具有广阔的应用前景。揭示摩擦材料湿度响应特性及其影响机制对于提升摩擦纳米发电机输出性能具有重要意义。本文研究了相对湿度对常见摩擦材料摩擦起电性能的影响,发现摩擦材料间的电荷转移量随着相对湿度的上升先增强后减弱,并且该现象具有普遍性。本文主要的研究内容及成果如下:1、设计制备一种应用于湿度响应特性研究的胶囊型摩擦纳米发电机,该器件易于实现机械