基于Caffe的嵌入式多核处理器深度学习框架并行实现

来源 :西安交通大学学报 | 被引量 : 0次 | 上传用户:jxy_su261314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对开源深度学习快速特征嵌入的卷积框架(Caffe)在Android移动端进行前向计算时存在的兼容性和时间性能差的问题,提出了基于Caffe的嵌入式同构、异构并行化改进设计方法。该方法将Caffe及其第三方库通过交叉编译移植到嵌入式移动平台后,利用同构的多核多线程方法分别对卷积层、输入帧之间的部分前向计算过程进行了并行化;实现了采用开放运算语言(OpenCL)的异构图形处理器(GPU)卷积计算,进一步提升了框架的处理速度。对3种经典的深度神经网络模型MNIST、Cifar-10和CaffeNet进行了测试对比,测试结果表明:在没有任何模型精度损失的条件下,并行后的前向计算耗时明显低于并行前,时间性能提升最高达到2倍。所提方法能够将深度学习框架Caffe高效地、并行地部署和应用于嵌入式移动多核芯片上。
其他文献
本文通过分析目前油封试验台用于高温高速油封测试时存在的问题,提出了具体的解决办法,介绍了一种高温高速油封试验评价装置,为评价高温高速油封的性能,促进高端油封国产化起
电力通信系统通常都工作在靠近强电磁场干扰源的恶劣环境之中。其电磁兼容(EMC)问题不容忽视。本文对电磁兼容(EMC)的中国国家标准和相关国际标准作了简介;对中国CCC认证和欧
对英美主要消防科技期刊的基本情况进行统计,掌握英美主要消防科技期刊的有关基本数据,有利于进一步有效利用消防信息情报。积累英美主要消防科技期刊的相关数据,为国内消防科技
超声波流量计直接测量得到的流速为超声波传播路径上的线平均流速,它与管道截面平均流速不同,为了获得流量的准确值,必须对测量得到的流速进行修正。本文建立了基于BP神经网
LTE系统是3G向4G演进的国际一致在研究的方向和系统,国内外对LTE的研究多方多面,但是对于资源调度方面一直都处于摸索发现阶段。当前较为成熟的算法包括正比公平算法,轮询算
提出了一种基于共形几何代数(CGA)求解所有1140种由转动副和移动副任意组合而成的平面并联机构的位置正解解析法。应用组合数学理论阐明了由转动副和移动副组成的平面并联机
英国消防管理(Fire Risk Management)期刊网页改版。新网页提供从2002年1月至今的所有期刊内容阅读。要成为FRM网站的会员首先需要注册一个账号,如果已经拥有账号或之前已经提供
超声无损检测方法具有缺陷定位较准确、对面积型缺陷检出率较高、灵敏度高等优势,可对较大厚度构件的内部缺陷进行无损检测。本文针对厚壁复合压力容器的超声检测方法,基于La
本文针对现有的ML(Maximum Likelihood)检测算法复杂度高,而传统检测算法性能不是很优的问题,提出了一种新的检测算法。新的检测算法结合ZF-OSIC和ML检测算法,根据ZF-OSIC(Fo
随着科技和时代的进步,人们对家庭的居住环境要求也越来越高。在电子技术和计算机技术日益普及的今天,将这些信息化的工具引入到家庭系统中,提出了智能家居的概念。本文以无