适用于边缘计算的卷积神经网络软硬件协同加速器的设计

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:lzs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着无人驾驶、智能机器人、遥感图像等领域的迅速发展,卷积神经网络(Convolutional Neural Network,CNN)算法在图像分类、目标检测、特征提取等方面以极大的优势得到了广泛的应用,取得了令人瞩目的成果。如今,鉴于边缘设备的数量逐年快速增长以及CNN模型的复杂化,云端无法实时有效处理所有边缘设备的CNN计算,CNN计算过程向边缘设备转移。但是边缘设备在CNN计算方面存在性能差和能效低等问题。因此,需要一种高算力低能耗的CNN加速器来满足CNN在边缘设备的计算需求,适应当前万物互联的时代。本文着眼于边缘计算设备完成CNN计算时高算力和低能耗的需求,设计并实现了一种适用于边缘计算的CNN软硬件协同加速器。首先,针对传统CNN加速架构无法利用CNN的稀疏性而导致计算效率低的问题,本文提出了一种中心对称矩阵替换卷积核并搭配剪枝的算法,在不影响CNN模型准确率的前提下大幅度降低CNN的计算量,实现了乘法复用并保持了计算的规律性和准确性,从而保证了CNN计算的高算力;其次,针对传统分块计算方式导致加速器出现实时性差和资源利用不充分的问题,设计了一种混合分块的方法来高效配置根据算法所设计的处理单元,使之在充分利用加速器计算资源的同时又能消除加速器内部处理单元之间的阻滞现象,保证了CNN计算的实时性和高算力;最后,针对片外存储访问能耗高的问题,设计了RLC编解码的方案并使用片上SRAM和新的数据流方式实现对数据的缓存和复用,实现片外存储访问功耗的降低。本文首先基于软硬件协同的方法构建了CNN加速器的模型,采用Verilog HDL完成了CNN加速器的设计,并通过Modelsim 10.6d的编译仿真环境完成了加速器的功能仿真,然后基于Xilinx Artix-7 FPGA平台完成了加速器的原型验证,最后采用TSMC90nm CMOS工艺完成了加速器从DC综合到ICC物理版图设计的ASIC实现。将本文设计与现有的CNN加速器Shi Dian Nao、SCNN和Spar Ten相比,加速比分别达到3.6、1.5和1.2,在能耗方面相比减少了58.3%、41.2%和16.7%。数据结果表明,本文设计的软硬件协同加速器可以满足边缘设备进行CNN计算所需要的高算力和低能耗的需求。
其他文献
陶瓷滤波器作为5G基站通信的核心器件,其生产过程中,可能出现陶瓷腔体开裂(裂纹)、镀银层破损(露底)等缺陷,这些缺陷会使滤波器产生电磁泄露,因此可靠的缺陷检测十分重要。基于机器视觉的自动化缺陷检测方法可以克服现有的人工检测的缺点,实时监测产线,及时排除不合格产品。因此,本文的主要内容是研究设计基于机器视觉的陶瓷滤波器表面缺陷检测算法。由于产品良率较高,短期内收集的缺陷样本数量极少,因此本文首先基于
学位
类脑人工突触是一类能够模拟生物突触的微观结构和钙离子输运过程,实现脑神经突触生物学行为的电子元器件。在众多二维材料中,过渡金属硫化物被广泛应用于生物突触可塑性功能的模拟。本文以典型的过渡金属硫化物材料二硒化钨为研究对象,基于不同忆阻机理制备了两种三端晶体管类脑人工突触器件,具体工作内容如下:首先研究了基于不同厚度二硒化钨同质结制备三端晶体管类脑人工突触器件,在二硒化钨不同厚度区域实现n型和p型调控
学位
传统纳米光子学器件的逆向设计具有挑战性,通常耗时久、计算成本高。通过将粒子群算法(PSO)与神经网络结合,可以得到一种高效且快速的算法对纳米光子学器件进行逆向设计优化。首先,训练好的神经网络可作为仿真软件的替代工具;其次,利用粒子群算法作为求解优化问题全局最优解的工具。本文通过逆向设计一维(1D)和二维(2D)结构八木天线的远场散射谱,得到其对应的物理结构来阐述验证该组合算法的具体实现。值得提出的
学位
折射率传感提供了一种无标记、低成本的单纳米颗粒检测方案。提高光腔的品质因子或者压缩模式体积能够促进光和物质相互作用,进而提高折射率传感器的灵敏度。等离激元传感器的模式体积打破了衍射极限,已被广泛地用于增强光和物质的相互作用。由于亚波长纳米孔的透射光强对于局域折射率的变化非常敏感,基于金属纳米孔结构的等离激元传感器为检测单个纳米颗粒以及包括病毒、蛋白质、核酸和其它生物粒子提供了一种灵敏的,低背景的无
学位
光是一种包含多维信息的电磁波,其光强、相位和偏振参量都携带大量信息。其中,光强可以由相机进行捕捉,简单且高效;但对于偏振和相位,其探测系统一般结构复杂,且只能探测单一的参量,不能满足现代光学探测系统的集成化发展需求。近年来光学前沿领域的超表面光学器件以其轻量性的特点和对光参量的灵活调控,为光束的相位和偏振等多参量同时探测提供了一种新的思路。本论文主要围绕基于偏振敏感超透镜阵列的多参量探测系统进行了
学位
微环谐振腔克尔光学频率梳技术的出现,为光学频率测量、光芯片集成、相干光通信等提供了可靠的解决方案,因此如何在微腔中生成光频梳吸引了广泛的关注。耦合微环谐振腔结构由于在原本的单个微腔的基础上增加了一个自由度,带来了诸如宇称时间对称、非厄米奇异点、模式耦合等更为丰富、复杂的物理学机制与现象,具有巨大的研究潜力,特别是其在微腔光频梳领域中的应用亟待探索。本论文从耦合微环谐振腔这一非厄米系统出发,提出了一
学位
声镊作为一种新兴的工具,它利用声波与固体、液体和气体的相互作用,用于在大范围内精准、无接触地操控多尺度(从纳米级到毫米级)下的微粒或细胞,是一种具备非常广阔应用前景的技术。尤其在肿瘤异质性等精准医学领域的研究中,由于细胞具有高度的异质性,仅靠对细胞群表现的平均信号研究不足以准确分析单个细胞;因此,对单细胞实现精准定位显得尤为重要。传统的声镊技术利用驻波声场产生声势阱,但由于驻波声场难以被多样性调控
学位
随着智能手表、手环和无线耳机等可穿戴电子产品的小型化、低功耗发展,对电源管理芯片提出了更高的要求。全集成转换器由于移除了体积庞大的片外LC,极大地节省了布板空间,同时降低了设计成本,已成为学术界与产业界的研究热点。结合可穿戴设备的应用需求,本文围绕全集成升压转换器的转换效率和响应速度展开研究。基于低电感电流、小纹波的改进型KY升压拓扑,提出了一种带瞬态增强的自适应恒定导通与关断时间(ACOOT)控
学位
作为AC-DC变换器的重要组成,Boost功率因数校正(PFC)变换器能够降低电流谐波,提高电能利用效率,使得产品符合IEC-61000-3-2等工业标准,因而广泛应用于现代电子设备中。根据电感电流的连续性,Boost PFC变换器的工作模式可分为断续导通模式(DCM)、临界导通模式(CRM)与连续导通模式(CCM)。为了满足宽负载输出的需求,以及打破单一模式在应用中的局限,本文对混合导通模式Bo
学位
近年来,人工智能的不断发展带来了海量数据,数据的识别、处理与存储在当今时代尤为重要,电子器件的不断更新与发展为海量数据的处理提供了强大的助推力。然而,随着摩尔定律逐步接近极限,依靠减小器件尺寸来有效提升器件性能的方式越来越难以满足要求。自旋电子器件作为一种新型电子器件,具有低功耗、高速度、非易失性等诸多优点,在许多领域都展现出极大的应用潜力,如磁随机存取存储器、忆阻器等。自旋轨道力矩效应是自旋电子
学位