面向卷积神经网络的通用加速器设计

来源 :天津大学 | 被引量 : 0次 | 上传用户：L_grey

【摘要】

：

【作者】

：

王宇吉

【机构】

：

天津大学

【出处】

：

天津大学

【发表日期】

：

2019年01期

【关键词】

：

卷积神经网络加速器高层次指令集计算阵列

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在嵌入式设备上,如何在保证运行结果准确率的情况下,提高卷积神经网络的运行速度并尽可能降低运行能量消耗,是卷积神经网络加速器设计面临的关键问题之一。同时,由于缺少统一的加速器架构和相应的软件开发环境,将卷积神经网络移植到加速器上,需要复杂的开发过程,增加了加速器使用复杂度。因此,如何将加速器性能、功耗与加速器对网络模型的通用性、适用性结合起来,是对加速器整体设计的一个考验。本文提出了一种面向卷积神经网络的高层次指令集,并基于指令集,设计了一种针对卷积神经网络的高并行度、高适用性、低运行功耗的加速器架构架构。为了方便卷积神经网络的移植与部署,高层次指令集可以将网络模型转化为固定的指令序列,并通过加速器的译码器进行取指、译码、执行操作,实现加速器对大部分卷积神经网络架构的支持。同时,加速器内部配有8个权重缓存单元,每个权重缓存单元与一个PE（processing engine）计算单元直连,通过权重的分布存储与多PE计算单元组成的阵列,实现加速器进行矩阵向量运算的高并行性。结合卷积层计算与全连接层计算的相似性,该计算阵列同时支持卷积计算与全连接计算。通过指令调度,加速器支持运行8bit/16bit混合精度的卷积网络模型。为充分利用数据稀疏性,加速器可以实现对高稀疏性数据的压缩/解压缩,减轻数据传输压力。本文最后在FPGA上实现该加速器设计,并成功运行Lenet-5网络与Alexnet网络。实验表明,本文提出的加速器架构在性能与运行功耗等方面具有一定优势。在相同计算资源占用情况下,加速器实现较高的计算性能。在网络模型移植复杂度与支持网络类型的适用性方面,该架构可以提供较好的支持。

其他文献

基于通用部分求值的分布式知识图谱正则路径查询研究

目前,知识图谱已经成为人工智能技术的重要组成部分,拥有强大的语义处理能力和数据关联能力。作为知识图谱上最常见的导航式查询,正则路径查询在近些年被广泛研究和讨论,已经成为一个焦点问题。随着互联网的发展,知识图谱规模日益激增,采用分布式技术成为面对大规模数据的必然选择。部分求值技术已经应用于图数据查询的分布式处理方案,然而,基于部分求值的方法一方面会计算很多无效的部分中间结果;另一方面容易导致计算和通

学位

正则路径查询分布式知识图谱通用部分求值

面向知识图谱表示学习的分布式框架

为了更好的完成大规模知识图谱补全和构建等工作,本文主要研究如何高效地利用分布式技术对大规模知识图谱进行稳定有效的表示学习。在利用分布式技术进行知识图谱表示学习时,会面临对大数据和大模型进行稳定高效处理的同时又要减少语义损失的挑战。所以,通过设计高效的分布式并行模式、参数交互模式以及有效的模型聚合方法等方面的工作来解决问题是非常重要的。本文面向知识图谱表示学习提出了一种基于去中心化混合并行的分布式框

学位

知识图谱表示学习分布式

基于深度学习和波束形成的双麦克风语音增强

语音交互是人类社会最直接、最自然的沟通交流方式,语音识别作为其中关键技术之一,能够通过识别语音信号,将语音信号转化为对应的文本文字。经过多年的深入研究,自动语音识别技术（ASR）已经取得了重大突破,并且投入到实际应用中,但是目前仍有一些技术难题需要攻克,其中最核心的问题就是降噪的处理。在实际应用中,由于周围环境的不确定性,语音常常会受到环境噪音的影响,进而影响语音的质量,最终使得语音识别率显著下降

学位

语音增强波束形成CNN注意力机制Lattice融合

基于循环神经网络的异质信息网络表示算法研究

利用网络表示学习方法高效的分析和挖掘大规模异质信息网络已经引起了广泛关注。由于考虑了节点与边的类型信息,异质信息网络携带的丰富的语义和结构信息,可以很大程度的优化网络分析和下游任务,但是如何充分利用这些信息则成为一个特殊挑战。传统的异质信息网络表示学习通过元路径引导的随机游走产生节点序列,并利用神经语言模型进行表示学习。虽然上述方法可以取得很好的效果,但仍旧是采用非常传统的Skip-Gram神经语

学位

网络表示学习异质信息网络双向循环神经网络间隔依赖图结构

在线核方法的泛化误差增量近似方法

核矩阵近似是提高核方法计算效率的基本方法。已有的核矩阵近似方法独立于学习问题,且用于在线核方法时每回合重新求解近似核矩阵导致较高的计算复杂度。本文首先提出面向泛化误差的矩阵近似方法,然后通过增量奇异值分解给出高效的增量矩阵近似方法。整合泛化误差近似与增量矩阵近似给出在线核方法泛化误差的增量近似方法。主要内容如下:1.提出面向泛化误差的矩阵近似方法。用泛化误差构造采样分布,将该分布作用于核矩阵的近似

学位

在线核方法增量奇异值分解矩阵近似泛化误差

水下传感器网络高效节点部署研究

水下无线传感器网络在水环境信息采集、海底资源探测、海洋军事监控、水下灾害预警等方面具有广阔的应用前景,其中水下传感器网络节点部署不仅直接影响网络监测质量,而且关系到网络后续的各种算法和协议设计。然而,由于水下环境的特殊性,部署节点的成本高昂,采用何种方法在满足应用环境覆盖要求的前提下有效降低节点的部署成本是需要研究的关键问题。本文首先就现有的部署算法、覆盖指标、感知模型、通信方式等对水下传感器网络

学位

水下无线传感器网络节点部署深度调节Voronoi图目标探测

基于FPGA的卷积阵列加速器的设计与优化

随着人工智能技术的快速发展和迅速普及,神经网络应用在诸多领域上,比如图像分类、图像语义分割、图像检索、物体检测等计算机视觉问题上,并且开始替代大部分传统算法,逐步被部署到终端设备上。但是神经网络计算量非常巨大,从而存在神经网络在硬件上处理速度慢、运行功耗大等问题。其中,CNN（卷积神经网络）庞大的数据移动和计算复杂度给硬件带来了巨大的功耗和性能挑战,这阻碍了CNN在智能手机和智能汽车等嵌入式设备上

学位

卷积神经网络Winograd卷积算法FPGA加速器

结合优势标签信息的标记分布学习研究

标记分布学习是一种新型的解决标记多义性问题的机器学习范式,其在处理标记模糊性问题方面有着十分重要的应用。不同于多标记学习,标记分布学习的标记空间不再是离散的标记向量而是各个标记对于样本的描述程度,它是一种更加泛化的表示形式。近些年来,标记分布学习以其十分广泛的应用背景,得到了越来越多的研究者的重视。在目前的标记分布学习模型中,大部分采用最大熵模型对标记分布学习数据进行预测并没有对标记空间中存在的信

学位

标记分布学习优势标签集成学习几何平均度量学习

基于缺失共现数据的无监督异构迁移学习

异构迁移聚类可以在无监督的情况下将知识从相关的异构源域迁移到目标域。现有的工作通常需要使用大量的完整共现数据,这种数据通常是异构的,使用转换函数是实现将异构数据映射到公共潜在特征子空间的方法。然而,在许多实际应用中,收集大量的共现数据是不现实的,而现有的共现数据往往是不完整的。另一个常见的问题是,实际中异构数据的复杂结构可能导致聚类性能的大幅度下降。为了解决这些问题,本文从两个方面提出了无监督异构

学位

异构迁移学习缺失共现数据矩阵分解自编码

基于动态网络空洞规避的水下传感器网络路由协议设计

水下传感器网络如今已经被广泛地应用于海洋监测、开发和探索。水下传感器网络采用声波进行数据传输,水声信道的误码率较高、传播速度低、时延大、衰减严重,且网络拓扑时刻在动态变化。由于传感器节点被部署在广泛的水体中,所以很难对容量有限的电池进行补充和更换。在数据包的路由过程中,对网络空洞问题的处理方式,直接影响到水下网络的吞吐量、及时性和健壮性。目前,已经有很多的水下传感器网络路由协议被提出,但是它们要么

学位

水下传感器网络动态拓扑控制分簇机会路由能量均衡

面向卷积神经网络的通用加速器设计

与本文相关的学术论文