【摘 要】
:
随着智能物联网时代的来临,边缘计算作为一种新的计算方式,凭借其超低时延和超高可靠性的优势被应用于各个领域。然而,传统的CPU和GPU平台无法满足边缘计算实时和功耗的需求,急需高效低功耗的平台对应用进行加速。因此,本文设计并实现了基于异构多核FPGA平台的加速器,并对设计空间进行探索与寻优,以满足上述的需求。本文的主要研究工作如下:1.卷积运算中普遍存在数据读写依赖,导致执行过程无法完全并行,而串行
论文部分内容阅读
随着智能物联网时代的来临,边缘计算作为一种新的计算方式,凭借其超低时延和超高可靠性的优势被应用于各个领域。然而,传统的CPU和GPU平台无法满足边缘计算实时和功耗的需求,急需高效低功耗的平台对应用进行加速。因此,本文设计并实现了基于异构多核FPGA平台的加速器,并对设计空间进行探索与寻优,以满足上述的需求。本文的主要研究工作如下:1.卷积运算中普遍存在数据读写依赖,导致执行过程无法完全并行,而串行的任务调用将导致加速器执行低效。针对该问题,本文设计了卷积神经网络加速器架构,以消除读写依赖和串行调用缺陷对性能带来的影响。该架构将任务级和运算级的并行结合,解决了单一硬件并行架构中存在的缺陷,将处理流程完全并行化。该架构由负责任务调度、内存管理的处理系统和多通道卷积运算的FPGA加速核组成。在任务级并行处理方面,利用多核CPU的特点,通过多进程技术将任务流分配到多核上进行处理,实现任务流并行。在运算级并行处理方面,设计了基于脉动阵列的运算级并行处理单元,将计算过程流水化。通过循环展开技术,利用卷积操作的层内并行性和层间并行性,加速卷积运算的处理。同时,存储单元采用多级存储结构,以增加滑动窗口内的数据复用。2.由于异构平台卷积神经网络加速器复杂的系统结构,需要更多的设计参数和更严格的约束,这将导致设计空间复杂化。针对该问题,本文提出了一种基于深度模型执行时间的设计空间探索与寻优方法,以获取最优的设计参数。首先,对深度模型的执行过程进行分析与建模。该数学模型以深度模型总执行时间为目标函数,以决策变量取值和资源为约束条件。同时,为获得更好的设计参数寻优效果和收敛速度,本文提出了基于加权变异策略的自适应差分进化算法。通过加权融合变异策略和自适应参数调整策略以动态平衡全局搜索和局部搜索能力,解决了差分进化算法易陷入局部最优的缺陷,从而达到较好的寻优效果。3.为了验证加速器在边缘计算应用场景中的性能和效果,设计了嵌入式智能目标检测系统。该系统的视频流采集与输出模块使用ARM CPU实现,深度学习推理阶段使用FPGA实现。软件端的内存管理和任务调度基于Linux操作系统进行开发与实现。通过图像分类和目标检测任务对该加速器的功能进行验证,结果表明该加速器可快速完成图像分类和目标检测,符合了系统设计要求,达到了对边缘计算场景的实时低功耗处理。
其他文献
会话情感识别作为情感识别任务的一个重要组成部分,在自然语言处理、文本挖掘等领域得到持续关注。会话情感识别任务旨在捕捉用户在会话中的情感动态,其在对话系统、舆情挖掘、法律审判、采访、电子医疗服务等方面具有重要的应用前景。随着社交媒体的普及,越来越多的用户选择在网络上表达自己的观点,而用户在表达观点的过程中经常依靠一些常识知识,同时会话中也经常存在让谈话者产生某种情绪的原因。由于现有的模型缺乏常识认知
随着物联网设备数量的快速增长,物联网设备固件的安全性问题愈发不容忽视。同时,由于软件需求的不断迭代,为了能够尽快完成开发任务,软件开发者常常从其他项目中查找功能相关的代码,并移植到自己的项目中。然而,这些被复用的代码或组件可能包含潜在的缺陷甚至漏洞。由于物联网设备的源码不开放、修复成本较高等特殊性,物联网设备固件面临更加突出的安全问题。为了解决该问题,一种主流的思路是将包含缺陷或漏洞的代码视作查询
文本匹配作为自然语言处理中的一项基本任务,广泛应用于信息检索、文本挖掘等领域。在实际应用中,文本匹配任务仍面临诸多挑战。现有主流的文本匹配模型通常存在一词多义、语义信息捕获不准确等问题,导致句子的上下文信息和隐含的语义信息不能被有效提取,造成准确率较低。为了解决以上问题,本文提出交叉知识增强的文本语义匹配模型,该模型基于全局-局部交叉知识增强和细粒度交叉知识增强的语义匹配方法实现。本文的主要研究工
随着我国老人的增多,老年疾病患病率也随之增高。在老年骨病患者中,绝大多数病症都与股骨相关。目前国内针对股骨近端骨折的主要治疗方法为髋关节假体置换。而这些假体大部依赖于进口。根据西安交通大学第二附属医院和中国人民解放军总医院的临床实践表明,目前进口的假体和钢板并不能很好匹配国人的股骨形状,造成术后恢复效果差。股骨参数测量可以辅助医生设计人工假体,同时还可以协助医生选择适合手术方案和器械。此外利用测量
深度神经网络(Deep Neural Network,DNN)作为人工智能最杰出的代表,被广泛应用于各个领域。然而,近期研究表明,高精度DNN模型极易受到对抗样本的攻击。对抗样本是人为经过特定对抗攻击算法所生成的恶意攻击样本,能在不影响人类正常视觉辨别的同时,使DNN模型产生高置信度的预测错误或分类错误。对抗样本揭露了DNN易被攻击的特性,是DNN巨大的安全漏洞。因而提升DNN对对抗样本的防御能力
引线框架作为半导体芯片的载体,是半导体封装领域所用到的重要基础原材料,主要用来保护半导体芯片免受外界物理或化学因素的损害,并同时用作导通介质。引线框架的生产方式是利用引线框架掩模在曝光机上对生产原材料(铜基板)进行曝光,将曝光后的半成品进行显影、蚀刻、电镀等工序后获得成品。若曝光环节出现的缺陷未被检出,会导致后续环节中的错误进一步扩大,所以生产厂商都会在曝光环节设立检测点。引线框架曝光缺陷尺寸微小
极化合成孔径雷达是一种高精度成像雷达,可以获得丰富的目标和土地覆盖信息,极化合成孔径雷达不仅成像分辨率高,而且还具有全天候对地观测的特点,在运转时不会因为光照、气候等条件而受到干扰,甚至可以穿透掩盖物获取其覆盖的信息。合成孔径雷达这些优点使得其在农业、环境、地质和军事等领域得到了广泛应用。传统的极化SAR图像分类方法通常会忽略掉极化SAR图像像素点之间的空间信息,分类效果常常达不到预期。本文的主要
生物特征识别在信息安全领域发挥着重要作用,掌纹识别作为一种新型生物特征识别方式,具有低失真、非侵入性和高唯一性等优势。传统掌纹研究大多使用自然光成像系统以灰度格式获取,识别精度很难进一步提升。为了获得更多的身份鉴别信息,利用多光谱掌纹图像代替自然光掌纹图像,根据不同波长的光谱对皮肤的吸收和反射率不同,捕获每个波段中特定和互补的掌纹特征。因此,本文探讨了基于多光谱图像的掌纹融合识别方法。1.针对传统