【摘 要】
:
近年来,人工智能技术飞速发展,尤其是以卷积神经网络为代表的深度学习技术,卷积神经网络优异的性能使其广泛应用到图像分类、目标检测、语义分割、语音识别等领域,然而模型结构越来越复杂,规模越来越大,导致难以应用到资源紧张、功耗敏感的嵌入式领域,而FPGA可重构、低功耗、高性能的特点,使其成为快速部署卷积神经网络的可靠选择。传统的设计方法通常针对特定的网络模型,设计专用的硬件加速结构,虽能获得较大的计算力
论文部分内容阅读
近年来,人工智能技术飞速发展,尤其是以卷积神经网络为代表的深度学习技术,卷积神经网络优异的性能使其广泛应用到图像分类、目标检测、语义分割、语音识别等领域,然而模型结构越来越复杂,规模越来越大,导致难以应用到资源紧张、功耗敏感的嵌入式领域,而FPGA可重构、低功耗、高性能的特点,使其成为快速部署卷积神经网络的可靠选择。传统的设计方法通常针对特定的网络模型,设计专用的硬件加速结构,虽能获得较大的计算力与能量效率,但可拓展性能较差,难以应用到不同的模型当中。因此,设计具有通用计算能力的可扩展硬件加速结构十分重要。本文设计一种通用卷积神经网络加速器,旨在为基于FPGA的卷积神经网络工程化实现提供一种设计方案,研究提出一种低功耗、可扩展、高性能的卷积神经网络加速器框架,从而实现面向嵌入式场景的卷积神经网络部署。本文的主要研究内容有以下三点:首先,针对网络的并行化设计,通过对卷积神经网络计算特性的分析,使用循环调整、循环分块、循环展开以及数组分割等方法,设计了可扩展的常用硬件计算单元以及资源受限情况下的卷积复用结构,并给出了并行化因子与数组分割策略的对应关系。其次,针对网络的定点化设计,从资源消耗与数据精度两个方面对定点数进行评估,通过对模型中的数据划分,确定了不同的定点化策略,并给出了不同量化方法与溢出模式和硬件资源消耗的关系。然后,针对网络的流水化设计,从层间与层内两个方面对流水化设计方法进行研究,设计了一种灵活的流水化计算架构,既能实现单个计算单元的独立运行,也能实现多个计算单元的流水化运行。最后,针对以上三点,使用Xilinx Vivado开发套件在Xilinx xc7z020clg400-1平台上,以YOLOv3-tiny网络模型为例对加速器性能进行测试。实验表明,在FPGA端100MHz的时钟频率下,使用16位定点数进行计算,取得了10.69GOPS的有效算力,系统功率仅2.533W。相较于667MHz的单核ARM9处理器,加速比高达290.56。层间流水的设计方法,在未引入硬件资源消耗的情况下降低48ms的推理时间。
其他文献
图像分割和超像素分割已被国内外的学者研究多年,成果显著,但它们仍然是计算机视觉中发展潜力很大的课题,对一些高级的图像处理领域具有重要意义,例如人脸识别、指纹识别、场景识别、行人检测、医学影像等。本文将超像素分割和图像分割相结合,提出了两个新的算法。本文的主要工作如下:(1)本文提出了一个基于超像素池化的图像分割方法,可以同时产生超像素并进行图像分割。首先使用全卷积网络和迭代可微聚类算法来获得超像素
近些年来,随着国家对光伏电站的建设与发展,大型光伏电站汇集并网发电已成光伏并网发电的主要形式,相较于传统的交流汇集并网发电,大规模的光伏阵列并网发电因不存在频率以及同步问题成为一种新型的发展形式。然而由于大型光伏电站直流升压汇集接入系统拓扑的多样性和特殊性,使得其在协调控制、故障识别与保护方面面临诸多挑战,本文就此三个方面展开对光伏电站汇集系统的研究。首先本文就光伏电站汇集系统的各部分组成及相应的
随着移动通信数据流量的巨幅增长,现有的第四代移动通信系统的频带已经不能满足人们的需求。第五代移动通信系统(The Fifth Generation Mobile Communication System,5G)应运而生。为了完善现有的5G基站部署体系架构并对商用5G之后未来后5G(Beyond 5G,B5G)移动通信系统进行高效的网络规划,本文引入抛物方程(Parabolic Equation,P
随着输电线路资产规模的不断扩大,人工巡检模式由于巡视效果差、工作效率低等原因难以满足输电线路巡检的要求,无人机凭借其快速、安全、高效、灵活、不受自然环境限制等优势,逐渐成为巡检作业的主要手段。伴随着机巡业务量的快速增长,巡检作业越来越难以进行集中统一化的管理,并且现有机巡作业系统成熟度不高,实用性不强,因此开发一套输电线路智能机巡系统,对于全面掌握输电线路的状态信息、消除信息孤岛、提高输电线路的运
随着计算机视觉技术以及人工智能的不断发展,行人重识别作为智能监控系统中一项重要的基础性技术已经取得了巨大的进展,并且得到了学术界和工业界的广泛关注。如何有效提高行人重识别的性能进而提升视频监控的智能化水平具有重要的研究价值。针对这一问题,本文以基于深度学习的行人重识别为研究课题,从损失函数和特征融合两个方面研究如何提升行人重识别的性能。本文主要研究内容包括以下三个部分:(1)探究了不同损失函数在行
高等医学院校与其它类型的高等院校相比,具有一定的特殊性,其一方面承担着高等医学专业人才培养及医学科研的职能,另一方面也直接或间接承担着对社会的公共服务职能。公共服务一般是指通过公共资源的投入为公民提供的各种服务,它是社会发展到一定阶段的产物。公共卫生服务作为公共服务的基本构成部分,是我国现代化社会保障体系建设中的重要内容,特别是通过我国对新型冠状病毒肺炎疫情防控这一重大公共卫生事件,更加凸显了高等
近年来,随着“智能医疗诊断系统”的概念被提出,相关研究不断深入。病理诊断作为癌症诊断的“金标准”,对癌症的最终诊断起到决定性作用。但是病理科医生的培养周期较长,人才缺口巨大,另一方面,病理切片的“查片看片”工作较为繁琐、耗时耗力且主观性较强,因此病理智能诊断系统的开发有较高的实践意义和应用前景。核分裂象数是判断胃肠道间质瘤恶化潜能的重要指标,因此如何自动检测其中的核分裂象并计数尤为重要。本文主要展
由于人类对自然活动干预的加剧,以及各种恶劣的天气影响,使得森林火灾频繁发生,严重危害人类的生命财产安全。在传统的森林火灾扑救过程中,对卫星、瞭望塔、无人机等预警系统缺乏统一的管理平台,导致指挥人员无法第一时间获取火情实时态势,错失最佳灭火时机。因此,亟需将地理信息技术运用于森林火灾防控中,开发火情预警系统管理平台,从而快速定位火情,提高指挥部门决策效率和灭火作战效率。本文设计实现了森林火灾防控指挥
有机场效应晶体管(OFET)是有机电路的基本组件,在存储器,生物传感器,驱动器和射频识别(RFID)中显示出巨大的应用潜力。降低OFET器件的工作电压并开发低功耗器件是实现其应用的重要步骤。在OFET器件中,金属氧化物介电层的介电常数相对较高,因此可以用其代替传统介电材料从而实现低电压操作。然而金属氧化物通常采用原子层沉积等高成本的真空沉积方法制备,而现有溶液法制备则需要高于400℃的退火温度,限
刮齿加工技术是一种有别于传统展成加工的圆柱齿轮加工方法,其加工内齿轮的速度是滚齿和插齿的数倍,并且比拉削工艺更加灵活。近年来随着数控技术、现代机床设计技术、刀具涂层技术和高速切削技术的快速发展,使刮齿加工方法引起了人们的关注。然而与插齿和滚齿加工相比,“一刀一件”的行业现状加大了刮齿刀具的研发和使用成本,且目前尚没有通用型刮齿刀具设计方法的相关研究。为了降低成本并推广刮齿技术的应用,本课题开展可加