基于FPGA的Caffe深度学习架构实现与验证

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:yun3531
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度学习(Deep Learning,DL)算法作为现代人工智能领域的重要分支,已被广泛应用于模式识别、自然语言处理、机器视觉诸多项目的实现,具有很高的科研价值。卷积神经网络(Convolutional Neural Network,CNN)是一种基于生物大脑视觉皮质原理,以高度分类和识别准确率著称的深度学习算法,Caffe是第一个工业级深度学习架构。现场可编程门阵列(Field Programmable Gate Array,FPGA)在对卷积神经网络进行有效计算方面显示出良好的优越性,这是因为卷积神经网络中存在的大量并行运算。目前,出现了大量在FPGA上针对卷积神经网络的开发工作,这是因为FPGA具备的低功耗性,可定制、可编程的结构和其在并行运算上体现出来的卓越性能。但是,目前多数的深度学习架构均不具备除满足于CPU(Central Processing Unit)和GPU(Graphics Processing Unit)计算设备的通用基础配置,这使得在FPGA上进行深度学习的难度大大增加,设计人员必须针对每个模型进行新的设计和实施,测试网络的正确性和进行性能优化,而无法简单利用现有工作。卷积神经网络是计算密集型算法,这尤其体现在卷积层存在的大量乘加运算中,乘加运算是影响算法整体效率的重要因素,这促使研究人员努力减少卷积层中必需的运算量。目前,很多研究成果已经显著改善了卷积神经网络的GPU实现性能,这表现在其进行分类和训练的时间缩短上。通过这些改进,许多深度学习框架都可用于在CPU和GPU上实现加速卷积,但鲜有针对FPGA的加速卷积实现。在此背景下,本文首先对卷积神经网络中的并行性和Open CL中的并行性进行了分析,主要包括了卷积运算本身的并行性、滤波器并行性,Open CL中的计算单元复制优化策略、数据并行优化策略、任务并行优化策略等。其次,本文对Winogard卷积算法的FPGA实现进行了分析,并描述了对Winograd卷积的优化,从理论上验证了该算法可以有效减少对FPGA片上各项资源的消耗。再次,本文设计采用FPGA作为加速设备实施运算加速,而将CPU作为主机实施控制,采用PCIe接口实现主机与FPGA的通信,在异构平台上实现卷积神经网络。最后,本文设计了深度学习框架Caffe的修改版本,该版本的Caffe带有FPGA支持,这样就可以使用FPGA实现基于Caffe编写的卷积神经网络模型,并且可以在必要时灵活地对FPGA设备进行重新编程,实现主机与设备之间的无缝内存事务处理,构建易于使用的测试平台,创建管道层以实现层间通信等。本文在Xilinx SDAccel开发环境下验证了该项目的实施,搭建了基于FPGA的Winograd卷积引擎,并展示了FPGA层可以与运行在主机处理器上的其他层一起使用,以运行几种流行的卷积神经网络。结果表明,本次实现在统一步长的3×3大小的卷积核层中实现了53 GFLOPS。本实现是针对Caffe深度学习架构的FPGA整体实现,包括有对框架的改编,对Caffe Brew选项的添加(OCL),存储同步化,增强存储标志位等,而不是针对某一个特定卷积神经网络的实现。
其他文献
受到相机成像器件响应特性的限制,多数通用成像系统获取的数字图像动态范围较小,不利于对场景信息进行分析。高动态成像技术在不改变成像系统物理结构的前提下,利用信号处理技术对低动态图像中过曝和欠曝区域的细节重建,可以生成更贴近真实自然场景的高动态图像。目前,高动态成像技术广泛应用在医学检测、摄影制图、军事遥感和游戏体验等领域。现有的高动态图像多采用多曝光融合方法获得,但是运算时间长,难以满足实时性要求,
目前国内大部分的铸件、塑料件、钢制品等材质工件打磨作业,大多采用手工或者使用手持气动、电动工具进打磨、锉等方式进行加工。这种方式容易导致产品不良率上升,效率低下,加工后的产品表面粗糙不均匀等问题。与手持打磨比较,打磨机器人能有效提高生产效率,降低成本,提高产品质量。本文设计一种六自由度打磨机器人,负载55kg,末端可根据打磨工件的形状特征和工艺要求,安装合适的打磨工具。主要研究内容如下:首先,根据
随着人类对海洋资源的进一步开发与利用,水下三维测量技术将具有巨大的应用前景。本文利用摄像机、微型投影仪、透明玻璃缸搭建了水下测量系统。投影仪投射标准正弦光栅条纹到达测量场产生相位调制,摄像机采集变形光栅条纹图,结合快速经验模态分解算法和傅里叶变换轮廓术实现三维测量技术。为了提高测量精度需要抑制条纹图的干扰噪声,同时去除零频分量扩大测量范围。由于水下测量环境的特殊性,需要解决折射和散射现象以提高测量
自动人脸关键点检测是在涉及面部识别或分析的任何任务之前的非常重要的步骤。这些关键点,也称为基准点或锚点,用于准确识别人脸,并对即将进行的分析产生重大影响。深度学习技术极大地提高了人脸对齐算法的性能。然而,由于人脸的多样性和数据的缺乏,在不受约束的情况下,例如大的头部姿势、夸张的表情和不均匀的照明等情况,该任务仍然没有完美的解决办法。为了应对这些复杂的情况,本文探索了两种不同的解决方案。一方面,本文
2012年,我国税务系统全面推动“营改增”的实施,并在2016年得到全面贯彻。通过实践发现,“营改增”策略的实施,不但有效降低了企业税负,还有利于推动产业结构的转型升级,从而大幅提升了中国增值税抵扣链条的完整程度,在很大程度上避免了对企业进行重复征税。以“营改增”政策的实施为契机,企业重复缴税问题得到有效缓解,行业分工更加科学合理,企业的发展环境得到极大改善。在“营改增”政策实施之后,虽然政策落实
多输入多输出技术(Multiple-Input Multiple-Output,MIMO)技术与正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)技术的结合MIMO-OFDM技术是5G通信的研究热点。MIMO-OFDM系统的信号检测等效于平坦衰落信道的MIMO系统的信号检测,而基于MIMO系统的信号检测存在最优检测复杂度过高、次优检测的性
2014年8月13日新《国十条》正式公布以后,国内保险行业逐步面临“回归保险正道”这一重大课题。保险作为国家保障体系中的磐石砥柱,为中国百姓担负着重要使命。社会需要从保
资本结构不单单只是企业融通资金的比例划分,它还对企业的财务风险、企业的市场价值等都会产生重要的影响。自上世纪五十年代美国著名经济学家Modigliani和Miller提出了经典
知识是智能系统的主要特征,知识库(Knowledge Base)是知识系统的核心。斯坦福大学信息技术实验室于2014年发布了开放知识库构建框架Deep Dive,以解决知识库构建过程复杂且涉及到的关键技术过多等问题,使得开发者可以专注于知识库中最能直接提高知识库数据质量的部分。近年来,随着金融业的快速发展,金融企业规模日益壮大,金融企业间的关系错综复杂,给金融企业信息的获取带来了不小的挑战,传统通
近年来,随着节能减排不断兴起,低碳、环保的电动汽车逐渐受到人们青睐。然而,续驶里程不足至今仍然是影响电动汽车发展的一个障碍,为了增加电动汽车的续驶能力,研究提升电动汽车电驱动系统的效率是非常有益的。在5G通讯技术成功研究和通讯网络的加速建设下,万物互联指日可待,这为电动汽车的网联化提供了支撑。在多电动汽车互联环境下,充分利用网联化的电动汽车电驱动系统易于实现状态数据采集和信息交互的便利条件,可以实