深度学习的加速器研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：show800811

【摘要】

：

近年来异构加速器凭借其优秀的性能功耗比成为了目前体系结构研究的主流方向。同时随着深度学习的兴起，深度学习神经网络的研究也重新回到了机器学习领域的潮头。因此，如何在加

【作者】

：

王佳

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2014年期

【关键词】

：

深度学习加速器数据复用神经网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来异构加速器凭借其优秀的性能功耗比成为了目前体系结构研究的主流方向。同时随着深度学习的兴起，深度学习神经网络的研究也重新回到了机器学习领域的潮头。因此，如何在加速器上高效地实现神经网络处理系统受到了学术界和工业界广泛的关注。　　本文从深度学习领域最常见的卷积神经网络出发，抽象出三种典型的神经网络层次，结合算法特点，在目前最常用的基准平台与加速器平台上实现了这些网络层次。主要的贡献包括以下三个方面:　　1.以卷积神经网络和深度神经网络为出发点，抽象并剥离出三种最常见的神经网络层次。并结合不同平台的架构特点，包括SIMD体系架构的Intel SSE指令集，GPU加速器的CUDA编程环境以及我们自己实现的专用神经网络加速器，对这三种神经网络层算法进行分块化、发掘数据复用性等优化，对算法进行重定制和实现。　　2.在10个测试程序上对三种平台进行了神经网络处理的实验。结果表明，专用神经网络加速器在性能上相比于SIMD基准平台有平均117.87倍的提升，在功耗利用率上有平均21.08倍的提升，而面积则仅相当于Ivy Bridge架构的1.87％。相比于GPU，专用神经网络加速器在性能上有平均0.22倍的提升，而面积上则仅有GPUC2070片上面积的0.56％。　　3.通过对实验分析发现，对于神经网络算法，GPU架构的主要性能瓶颈在于PCIe带宽对于数据传输的限制;SIMD架构的主要性能瓶颈在于并行化程度不够高。专用神经网络加速器则设计DMA利用数据复用性优化数据存取流程，设计不完全流水利用计算独立性实现高并发处理，这两点都从体系架构上越过了上述性能瓶颈。

其他文献

线性回归在无线传感器网络定位中的应用研究

无线传感器网络(Wireless Sensor Network，WSN)以Ad-hoc网络结构或分层结构来对传感器节点进行部署，通过传感器与外界交互完成数据采集、处理以及通信等功能，具有低成本、低功耗

学位

无线传感器网络线性回归定位改进算法最小跳数

区分子图模式挖掘技术的研究

学位

恒定比特率业务中ATM用户接口的研究

该文致力于实用化ATM用户接入设备的研究设计,完成恒定比特率(CBR)业务的电路仿真功能,为E1业务接入ATM交换网络提供了支持. CBR业务接入ATM网络必须遵循相关协议及电路仿真

学位

宽带综合业务数字网异步转移模式ATM适配层恒定比特率业务电路仿真业务时钟恢复模块化设计

面向视频检索的关键帧选择技术研究

随着视频数据的爆炸式增长，传统的基于关键字查询的不足逐渐暴露，基于内容的视频检索技术成为切实可行的提高检索质量的方案。由于视频数据在时间域上存在极大冗余，因此关键帧选

学位

视频检索关键帧选择图像质量相似度度量

模糊关联规则的数据挖掘算法研究

作者首先总结了模糊数学和数据挖掘相结合的各种方法,并着重研究模糊关联规则的数据挖掘的方法,并提出了对布尔型关联规则、数据型关联规则、周期型关联规则模糊化的方法,提

学位

布尔型关联规则数据型关联规则周期型关联规则模糊关联规则

基于概念的网络视频检索技术研究

基于概念的视频检索技术，经过近十年的研究和发展，已经成为缩小“语义鸿沟”的有效途径，成为基于纯文本视频检索的有效补充。近年来，随着视频分享网站的蓬勃发展，面对内容丰富，标注

学位

网络视频主题概念查询映射检索技术

视频编解码访存性能优化研究

随着视频分辨率和帧率的不断提高，访存已成为视频编解码应用的主要性能瓶颈。现有的视频编解码标准主要着力于提高编码效率和改进压缩性能，并未对访存给予更多的考虑。随着访存

学位

视频编解码访存性能优化技术运动估计模块

八元数与BP神经网络在肝脏血管分割中的应用

为了达到血管精细分割的目的，本文针对肝脏序列CT图像数据中目标血管与肝实质灰度相近、肝脏内血管树复杂及噪声较多等问题，提出了3种分割算法:运用八元数解析函数的特性提取血

学位

CT图像血管分割三维重建八元数灰度相近

组播音信中的密钥管理与鉴别研究

该文将就组播安全三个重点领域:组播安全框架、组播密钥管理、组播数据源验证证展开研究和讨论,并就后两者给出了自己的解决方案或对已有方案EMSS[1]进行了扩展和优化.其中EE

学位

组播安全密钥管理数据源鉴别分布式方案延迟

一种支持多目标平台的内存虚拟化方法研究

学位

深度学习的加速器研究

与本文相关的学术论文