基于APSoC架构的嵌入式卷积神经网络的实现和快速部署

来源 :云南大学 | 被引量 : 0次 | 上传用户:ehvv5022
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着深度学习在嵌入式系统上不断应用,为人工智能的普及做出重要贡献,其中卷积神经网络(CNN)作为一种深度学习方法在图像识别、目标检测以及图像分割领域均实现了巨大的突破。“服务器训练+嵌入式部署”已经成为了常见的一种研发模式。因此本文旨在基于FPGA高性能嵌入式平台上实现CNN框架搭建和快速部署。它既可以提供FPGA来进行高性能计算(HPC)任务,也能够运行ARM Linux系统来实现高级语言设计界面。为了实现本文目标,需要考虑以下两方面因素:FPGA端的高吞吐量硬件结构、数据流接口、内存架构、设计参数化、性能优化、可扩展性;ARM端的高级接口框架以及CPU-FPGA数据传输API。针对以上考虑因素,本文主要工作有:1)嵌入式系统软硬件总体方案设计;2)引入同步数据流(SDF)模型进行硬件结构设计以及重新加载片外存储权重;3)通过高层次综合(HLS)参数化设计FPGA加速器,并利用折叠因子、“交错”及循环流水技术对CNN的性能优化;4)提出利用SDF子图分割完整SDFG实现硬件框架的扩展性;5)实现CNN在嵌入式系统上的搭建和快速部署。最后,针对LeNet-5主流模型,本文在同等容量的FPGA平台上对比了三种不同硬件框架的计算能力,分别为:0.216GOPs[46],0.48GOPs[43],0.988GOPs[56],结果表明本文设计的硬件框架实现了高达1.863GOPs的吞吐量,性能远远超过同等FPGA容量的硬件框架结构。类似的本文硬件框架结构在CIFAR-10模型上实现了3.25GOPs的吞吐量,是ARMCortex A9处理器性能的42倍。另外,本文利用32位ARM处理器,在Mnist手写体数据集及CIFAR-10图像分类数据集上实现了98.75%和85.71%的准确率,FPGA的准确率为98.4%和84.42%,精度损失为0.35%和 1.29%。本文创新点:在APSoC架构下将FPGA硬件设计点表示为SDFG,并通过分割SDF子图实现复杂CNN模型;提出“交错”、折叠来优化加速器提升吞吐量。
其他文献
目的 观察翼状胬肉切除术后配戴软性角膜接触镜对眼压的影响。方法 选取单眼行翼状胬肉切除联合结膜瓣移植术的患者32例。术后软性角膜接触镜覆盖患眼,常规治疗。用非接触眼
随着互联网技术的不断发展与广泛应用,网络攻击行为日益增多,网络安全问题也愈发严重。特别地,以高级持续性威胁为代表的多阶段渗透攻击使得传统防御处于“易攻难守”的被动
在机电一体化背景下,动车组工作的稳定性需要极其精细的技术支持。例举动车组核心控制部件 电路板故障,分析原因并提出电路板故障点查找方法及修复方案。
“公益”是社会生活的重要组成部分,其发展和进步不仅关系着个人、群体之间的和谐,也影响着整个社会的稳步推进。新媒介时代的到来,微公益成为颇受人们喜爱的公益模式,积极倡导着公益叙事的展开。与此同时,公益理念植根于人们心中,吸引越来越多的用户加入其中,贡献自己的力量。备受欢迎的微公益究竟是如何运作、怎样成功等问题,吸引着一大批的学者去探讨,而新型的娱乐化公益以游戏的手段与更多的受众相联结,拓展了学术研究
900×1200鄂式破碎机齿板的改进我矿900×1200颚式破碎机1台供2台6000×3000mm湿式自磨机300mm以下块度、矿石硬度系数f=12~14的矿石破碎。1989年度该机碎矿110万t,作业率为90%。但每隔一个半月须定期检修耗时48h。... 900 × 1200
目的:评价俯卧位肺复张对改善急性呼吸窘迫综合征(ARDS)患者氧合指数、血流动力学的影响。方法:将71例收治ICU的ARDS患者先后行仰卧位肺复张和俯卧位肺复张,中间间隔洗脱期,收
图论是离散数学的一个分支,广泛地应用于许多领域。近几十年来,利用几何和分析的方法来研究图上的相关问题受到了广泛关注,其中非常具有代表性的就是在图上离散化流形中的一
目的比较合并或不合并糖尿病的细菌性肝脓肿患者的临床特点和预后。方法回顾性分析94例细菌性肝脓肿的患者,比较合并糖尿病和不合并糖尿病两组患者的一般资料,临床表现、辅助
目的评价16层螺旋CT在鉴别椎动脉异常行径中的价值,并探讨其临床意义。方法回顾性分析22例先天性椎动脉行径异常患者的多层螺旋CT造影(MSCTA)表现,其中13例行DSA检查(并且其
上古先民特别崇拜生殖,从而也崇拜生殖器官。这种生殖崇拜作为先民的一种意识形态,必然会在汉字的构形中得到体现。我们从甲骨文"后"、"好"、"祖"等字的构形中,可以感受到上