卷积神经网络的FPGA多线程加速系统设计研究

来源 :兰州交通大学 | 被引量 : 0次 | 上传用户:wj34271996
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
卷积神经网络作为深度学习的重要算法之一,具有复杂的网络结构,强大的特征学习能力以及特征表达能力,并且已广泛应用到计算机视觉处理,自然语言识别和大数据分析等多个领域。基于卷积神经网络的深度学习应用分为训练和推理两个任务阶段,两个阶段都属于计算密集型,目前主要部署于高性能处理器集群上运行,如CPU、GPU和服务器等。如今,卷积神经网络已广泛应用到智能手机、无人驾驶和物联网等领域,但庞大的网络模型和过高的功耗与硬件设备能力不匹配的问题日益突出。因此,具有高能效比的卷积神经网络加速器设计成为目前的主要研究。针对上述存在的问题,本文对卷积神经网络压缩与硬件加速问题进行了研究,提出了基于FPGA(现场可编程门阵列)平台的多线程加速器设计方法。本文主要研究内容如下:首先,面向卷积神经网络计算,针对常见的网络模型计算存在冗余的问题,本文深入分析和研究了网络优化方法和参数优化问题。对于网络模型优化,在现有的网络基础上加入批量归一化作为网络模型结构的一部分,重新设计了网络结构层,有效地解决了网络梯度爆炸问题,加快网络收敛,从而减少训练次数。在网络执行推理任务时,针对网络模型参数冗余导致计算时间太长情况,文中提出了LASSO回归的通道选择算法,通过最小化输出特征映射的重建误差方法来剔除冗余通道。并且为了更快速的在硬件平台上计算,本文采用了Q格式浮点数动态定点量化的参数优化方式,进一步压缩了网络参数占用空间,提高网络计算效率。其次,对卷积神经网络计算过程中的并行性进行多线程优化分析,在卷积层的计算任务中,通过对常规空间卷积计算的加速器研究,深入分析了执行推理阶段任务的计算特点及数据传输问题,提出了多线程并行计算架构,分别在各参数级、通道级和层级上分析计算的并行性。基于流水线计算策略,对同一卷积运算过程采用缓冲器的方式,进一步减少了与外部设备数据交互的时延问题,高效地利用了FPGA(现场可编程门阵列)的计算资源;在数据存储方面对不同分块方式的片外访问数据量进行分析,对卷积的输出高度和通道进行分块,分析了不同数据复用情况下的数据量访问,对硬件加速结构在数据访存设计上提供了理论支持。最后,对卷积神经网络计算以及各模块之间的硬件资源分配提出设计方案。本文采用Xilinx XC7Z020嵌入式平台,针对卷积运算的并行性提出了网络多线程计算架构,实现卷积滑动窗口与输出通道的二维并行计算。该计算架构将计算阵列抽象为流水线计算,每个线程处理一个滑动窗口。线程内部实现多个输出维度的并行计算,线程之间实现滑动窗口并行计算。并且该方案根据不同的分块方式实现内部特征图复用,线程之间权重复用,减少了片上内存及访问带宽的需求。实验以Alex Net和VGG16为目标网络,在使用卷积神经网络进行图片识别的应用场景中,分析了FPGA在不同网络结构中计算资源的占比情况,对比了以CPU、GPU为硬件基础的卷积神经网络运算数据。相较于CPU方案,本方案能够大幅度提高计算效率;对于GPU方案,本设计能够实现在计算效率不会大幅度下降的前提下降低了系统的功耗,有效的降低了能效比。
其他文献
红外与可见光图像融合是图像融合领域中的一个骨干分支,在场景监视、驾驶辅助、公共安防、生物识别等诸多领域中被广泛应用。红外传感器和可见光传感器是日常生活中最常见以及应用最普遍的传感器,由于两者的成像原理不同,获取的图像也表现出各自不同的特性。红外传感器识别目标是根据目标与场景间的热辐射信息量大小不同进行信息获取,具有较强的抗干扰能力和可以24小时不间断工作的优点,但其获取的图像存在可视性差、清晰度低
学位
目的:感染性骨缺损及慢性骨髓炎是骨科较为常见疾病之一,临床治疗难度加大,往往耗费大量人力、物力及财力,仍存在治愈困难的情况,给患者的生活及工作造成极大影响。SF/VANCO/PLGA/β-TCP复合抗感染人工骨支架是治疗感染性骨缺损的可选方案,具有良好的应用前景。本研究通过构建复合抗感染人工骨支架,并探索复合支架的体外生物学评价,以期为临床慢性骨髓炎的治疗提供一种新的可替代治疗方案。方法:本实验由
学位
近年来,行人检测技术在智能监控、智能驾驶和智能机器人等领域都有着十分广泛的应用。行人检测技术是指通过算法在指定的图像中定位到行人目标并框选出具体的位置与范围,为后续工作的开展起到前置预处理作用的技术。然而,图片与视频中的行人目标因拍摄角度不同、行人姿态各异以及存在一定的遮挡,导致YOLOv3算法对于这类目标的特征提取能力不足;同时YOLOv3算法对行人目标的特征信息融合不充分,这些问题都给行人检测
学位
通常单模态医学图像包含信息单一,不能很好的反应病灶区域的全面信息,为了更好地观察病灶区域的情况,医学图像融合技术作为常用的技术手段被广泛应用于医学图像领域中。多模态医学图像融合(Multimodal Medical Image Fusion,MMIF)主要是针对多幅单模态的医学图像进行融合。在融合的过程中,不仅可以保留有效信息、增加互补信息、去除冗余信息,而且经过融合处理后的医学图像更加清晰。医生
学位
背景及目的:肝癌是严重危害人类健康的消化道恶性肿瘤之一。人源肿瘤异种移植(patient-derived tumor xenograft,PDX)模型能在一定程度克服肿瘤细胞系模型的缺陷。然而,目前PDX模型成瘤率低、成瘤时间长导致该模型的应用受限,因此,本研究目的是探索影响肝癌PDX模型建立的相关因素,建立成瘤率高及成瘤时间短的肝癌PDX模型。为肝癌患者提供有效的个体化治疗方案。方法:本研究共纳
学位
由于现代社会的发展以及对高辐射性材料的研究,放射源已被广泛用于各个领域,如果存放和使用不当,出现了放射源丢失甚至泄漏的事件,将会造成环境灾害、对社会产生重大危险、甚至破坏人民财产和生命健康。为了保证放射源的安全存储与运输,需要对放射源运行状态实施监控,而放射源辐射出的射线对人身有安全隐患,故有必要实行远程监控管理,减少人工与放射源直接接触,在此需求的基础上,设计了一套放射源远程监控管理系统,可以实
学位
高铁技术的快速发展推动了对高铁宽带无线通信系统需求的增加,基于高铁系统的无线资源管理是近年来提高系统性能的研究热点,其中功率分配考虑用户的服务质量(Quality of Service,QoS)要求、系统的发射功率有限以及信道质量状况等条件的约束,将有限的资源高效合理的分配给用户从而提高高铁通信系统的QoS性能。在新一代用户多业务并存的高铁宽带无线通信系统中,如何在保障不同特性业务要求的前提下,使
学位
背景:下腰痛(Low back pain,LBP)是一种普遍性疾病,约84%的人在其一生中的某个阶段会经历LBP的情况。多项研究表明由炎症反应和氧化压力介导的椎间盘退变(Intervertebral disc degeneration,IDD)可能是引起LBP的主要原因之一。当前对IDD性疾病的治疗主要是缓解临床症状,并未从根本上延缓IDD的进程。因此,探索治疗IDD的药物是很有必要的。目的:据报
学位
随着信息技术的快速发展,传感技术作为多个重要学科交叉的综合技术,在健康医疗、航空航天、环境监测、智能家居、智慧城市等多个领域都发挥着至关重要的作用。在传感器设计中,为了实现微型化、可携化、低成本、高灵敏度的传感器件,研究者逐渐转向抗电磁干扰能力更强的光学传感器。微环谐振器作为一种结构简单、拥有较强谐振的微型光学器件,它的品质因子高、带宽窄、结构紧凑且易于集成,因此被广泛应用到温度、湿度、生化溶液、
学位
目的:TNM分期与患者预后密切相关,但对于术后长期生存的预测相对不足,预后营养指数(PNI)代表患者术前营养和免疫状态,与一些恶性肿瘤患者的预后相关,但与弥漫型胃癌(DGC)之间的关系尚不明确。本文探究了PNI对DGC术后长期生存的预测价值。方法:回顾性收集单中心353例DGC手术背景患者的临床病历和长期随访资料,计算PNI(5×术前淋巴细胞计数(10^9/L)+术前血清白蛋白(g/L))的最佳截
学位