深度学习的加速器研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:show800811
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来异构加速器凭借其优秀的性能功耗比成为了目前体系结构研究的主流方向。同时随着深度学习的兴起,深度学习神经网络的研究也重新回到了机器学习领域的潮头。因此,如何在加速器上高效地实现神经网络处理系统受到了学术界和工业界广泛的关注。  本文从深度学习领域最常见的卷积神经网络出发,抽象出三种典型的神经网络层次,结合算法特点,在目前最常用的基准平台与加速器平台上实现了这些网络层次。主要的贡献包括以下三个方面:  1.以卷积神经网络和深度神经网络为出发点,抽象并剥离出三种最常见的神经网络层次。并结合不同平台的架构特点,包括SIMD体系架构的Intel SSE指令集,GPU加速器的CUDA编程环境以及我们自己实现的专用神经网络加速器,对这三种神经网络层算法进行分块化、发掘数据复用性等优化,对算法进行重定制和实现。  2.在10个测试程序上对三种平台进行了神经网络处理的实验。结果表明,专用神经网络加速器在性能上相比于SIMD基准平台有平均117.87倍的提升,在功耗利用率上有平均21.08倍的提升,而面积则仅相当于Ivy Bridge架构的1.87%。相比于GPU,专用神经网络加速器在性能上有平均0.22倍的提升,而面积上则仅有GPUC2070片上面积的0.56%。  3.通过对实验分析发现,对于神经网络算法,GPU架构的主要性能瓶颈在于PCIe带宽对于数据传输的限制;SIMD架构的主要性能瓶颈在于并行化程度不够高。专用神经网络加速器则设计DMA利用数据复用性优化数据存取流程,设计不完全流水利用计算独立性实现高并发处理,这两点都从体系架构上越过了上述性能瓶颈。
其他文献
无线传感器网络(Wireless Sensor Network,WSN)以Ad-hoc网络结构或分层结构来对传感器节点进行部署,通过传感器与外界交互完成数据采集、处理以及通信等功能,具有低成本、低功耗
学位
该文致力于实用化ATM用户接入设备的研究设计,完成恒定比特率(CBR)业务的电路仿真功能,为E1业务接入ATM交换网络提供了支持. CBR业务接入ATM网络必须遵循相关协议及电路仿真
随着视频数据的爆炸式增长,传统的基于关键字查询的不足逐渐暴露,基于内容的视频检索技术成为切实可行的提高检索质量的方案。由于视频数据在时间域上存在极大冗余,因此关键帧选
作者首先总结了模糊数学和数据挖掘相结合的各种方法,并着重研究模糊关联规则的数据挖掘的方法,并提出了对布尔型关联规则、数据型关联规则、周期型关联规则模糊化的方法,提
基于概念的视频检索技术,经过近十年的研究和发展,已经成为缩小“语义鸿沟”的有效途径,成为基于纯文本视频检索的有效补充。近年来,随着视频分享网站的蓬勃发展,面对内容丰富,标注
随着视频分辨率和帧率的不断提高,访存已成为视频编解码应用的主要性能瓶颈。现有的视频编解码标准主要着力于提高编码效率和改进压缩性能,并未对访存给予更多的考虑。随着访存
为了达到血管精细分割的目的,本文针对肝脏序列CT图像数据中目标血管与肝实质灰度相近、肝脏内血管树复杂及噪声较多等问题,提出了3种分割算法:运用八元数解析函数的特性提取血
该文将就组播安全三个重点领域:组播安全框架、组播密钥管理、组播数据源验证证展开研究和讨论,并就后两者给出了自己的解决方案或对已有方案EMSS[1]进行了扩展和优化.其中EE
学位