Caffe应用在主从式加速器上的内存管理与性能优化

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:sczr2898
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度学习近年来在各方面都取得了突破性的进展,如语音识别、图像分类等。而卷积神经网络作为第一个成功训练的多层网络,更是被广泛应用。但是由于CNN的特殊计算模式,使得一般的通用处理器对CNN的实现效率不高且不能满足其性能要求。因此,各种基于DSP、FPGA以及ASIC的加速器迅速发展,尤其是基于FPGA的加速器得到更多研究者的青睐。对于CNN这种计算密集型的任务,基于SoC FPGA的硬件加速器和CPU的协同工作在性能和能效上提供了显著的优势。但是,目前的操作系统对各种不同功能的加速器提供的支持很少:操作系统不知道一个计算任务是在CPU上还是加速器上执行;操作系统对CPU和加速器在内存上共享的数据没有提供有效管理,如零拷贝、数据一致性等;而且,当前的操作系统也很难为加速器分配大片连续的物理内存空间。本文中,我们选择Xilinx Zynq平台为研究目标,定性地分析了数据共享的方法。除了利用Zynq平台设备的高性能AXI接口,我们还为基于FPGA的卷积神经网络加速器设计了一个新的内存管理系统。它为CPU和加速器提供了一个统一的虚拟内存空间,使得他们能够在操作系统的用户空间访问到相同的内存空间,同时保证了数据的一致性。为了把加速器应用到实际中去,我们选取了深度学习中较流行的一个学习框架-Caffe,对其进行了评测分析。对于Caffe中的计算瓶颈部分,我们利用卷积神经网络加速器对其进行了加速,极大的减少了程序的执行时间。在加速实现过程中,我们实现了Caffe中卷积运算到加速器的映射,并对卷积运算中的矩阵进行了分块计算。对于核心的卷积计算,通过加速器加速,我们实现了最高4.8的加速比,而对于整个Caffe应用来说,我们实现了全应用2.74的加速比。同时,本文还根据加速器平台搭建了一个图像分类的原型演示系统,通过开发平台的VGA接口,系统能够在显示器上显示分类结果。
其他文献
自从可扩展标记语言(XML)出现以来,它在制定标准及开源社区方面做了很多有意义的工作,以融合网络中各种不同的应用技术,使得开发网络应用变得更加快捷。 融合不同应用技术的方
随着计算机网络技术的不断发展,计算机网络在人们的日常生活中已经变得越来越普遍,而对网络的维护和管理也日益凸显其重要性。目前,网络管理已成为计算机网络的关键技术之一,
粗糙集理论是八十年代初由波兰学者Pawlak提出的一种处理不精确、不确定性问题的数学工县。由于其近年来在机器学习、模式识别、决策分析、过程控制、数据库知识发现、专家系
智能规划是近几年人工智能领域中的一个研究热点,由于在工业实践以及理论研究有着非常重要的地位,智能规划受到越来越多的学者关注。本文的研究是针对智能规划中一种不确定性规
差分方程是描述自然科学和社会科学中各种演化系统的一种强有力的数学工具,已被广泛应用于生物学、生态学、电子学、生理学、物理学、工程学和经济学等领域。另外,差分方程在算
随着计算机网络技术、计算机通信技术、分布式并行处理技术的发展,Agent以及多Agent系统(Multi Agent System,MAS)的研究已成为分布式人工智能(Distributed Artificial Intel
数据挖掘是一门新兴的交叉学科,涉及到数据库技术、机器学习、统计学、模式识别、神经网络、人工智能、数据可视化等多个领域。目前它已成为数据处理和分析研究中最活跃、最令
近年来,随着互联网技术的快速发展,个人或家庭接入互联网的带宽也越来越大,与之而来的是各种各样的新型互联网服务方式。视频直播服务也是其中之一并且已经成为互联网的主流
学位
从人工智能跨越到计算智能是计算机科学发展史上的一次重大变革。以进化算法和神经网络为核心的计算智能理论得到了长足的发展。最近十几年来,各种新的进化算法也纷纷被提出。