面向ARM嵌入式平台的卷积神经网络前向加速研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:wgsgdy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习技术的发展,深度学习算法的准确性不断提高,通过深度学习来代替机器学习算法的方式被广泛认可,卷积神经网络是深度学习在计算机视觉领域的重要发展分支,它被广泛应用于图形图像处理领域中。在移动端设备日新月异的时代,移动端应用占据了应用市场的大部分,将卷积神经网络应用于移动终端不仅能拓展移动端应用范围,还能有效地降低卷积神经网络部署成本。但卷积神经网络在移动端设备上计算缓慢,无法满足应用的及时响应需求,因此,搭建性能优异的移动端卷积神经网络框架是推进卷积神经网络在移动端上部署的关键。利用深度可分离卷积和模型量化降低网络的参数量和计算量,利用移动终端中的ArmV7 CPU和Mali GPU加速卷积神经网络前向的计算过程。在CPU中利用汇编Neon指令和OpenMP多核技术加速卷积层和激活函数层,而在GPU端通过OpenCL异构并行框架调用Mali GPU中的着色器处理核心加速卷积和激活函数。充分利用移动终端上的多种计算资源,加速卷积神经网络前向的计算过程。在firefly RK3399开发板上,利用多种框架实现8位量化的MobileNetSSD通用对象检测网络,Mali T860 GPU完成一次前向耗时210ms,Arm CPU中两个Cortex A72核心完成一次前向耗时260ms,两种计算设备串行混合完成一次前向耗时190ms,视频处理的帧速可达到5fps。因Mali GPU在OpenCL框架中映射出的线程出较少,且在计算滑动窗口与卷积核内积时利用了OpenCL向量化加速,当卷积层的输入的宽高较小,通道数较大时,Mali GPU的计算速度较快。而Arm CPU上利用128位Neon指令一次计算4个32位数的算术逻辑运算,当卷积层输入的宽高较大,通道数较小时,Arm CPU的计算速度较快。利用Mali GPU和Arm CPU串行计算网络中各层,最大限度发挥两种计算设备的优势,加速卷积神经网络前向过程。
其他文献
由A.F.M?bius于1827年最先提出的重心坐标是一种定义在多边形上的坐标,其自由的几何结构使其成为了处理图像的有力工具。经过相关学者一个多世纪的努力,广义重心坐(generaliz
超导现象自发现以来,由于其丰富的性质,一直都是物理学的研究热点之一。在常规超导材料和理论不断发展的同时,非常规超导体和高温超导体的发现进一步引起了超导领域研究的热
镉(Cadmium,Cd)是一种被广泛应用于工业生产中的有毒重金属,对发展中国家以及高度工业化的国家公共卫生造成了严重危害。之前的研究表明,Cd可以通过食物链、职业暴露和香烟烟雾而富集,最终蓄积在血液,脑,肾脏和肝脏以及生殖器官中,包括卵巢,睾丸和胎盘。尤其是怀孕期间妇女更容易受到Cd毒性的影响,因为Cd更容易积聚在胎盘中,导致一系列与胎盘相关的疾病,如先兆子痫、胎儿生长受限和流产等。因此,本研究
原发性干燥综合征(Primary Sjogren’ s Syndrome,pSS)原发性干燥综合征(Primary Sjogren’ s Syndrome,pSS)是一种以侵犯唾液腺、泪腺等外分泌腺为主的慢性系统性自身免疫性
《指路经》是西部方言苗族丧葬仪式中指路师为死者指路时所用的经书,旨在为死者亡灵指明回归祖地和投胎重生的路线。《指路经》的内容丰富,涉及到西部方言苗族生活的各个方面
公民参与反腐倡廉的建设是公民与国家公权力机关合作治理国家的一种方式,也是公民行使自身民主权利的重要方式。这不仅是人民当家作主得以实现的要求,更是全面推进依法治国,建设法治国家、法治社会、法治政府的要求。反腐败工作的展开仅仅依靠公权力的行使是远远不够的,我们应当充分发挥人民的力量,在保障公民知情权的前提下,鼓励公众参与反腐工作,监督反腐工作,实现公众和公权力机关的“反腐合力”。本文通过阐述知情权和反
有机-无机杂化钙钛矿具有载流子扩散长度长、发光效率高等特点,是一种性能优良的半导体材料,也是一种极具潜力的激光增益介质,受到了光伏、激光等多个领域的广泛关注。并且,
目的:选择性剪接是一种关键的调控基因表达的转录后调节方式,有助于扩大蛋白质种类复杂性和调控m RNA代谢。选择性剪接的异常包括前体m RNA和反式作用因子的遗传性改变或表达异常与多种肿瘤的发生有关。通过整合分析来自TCGA和Splice Seq数据库中31种肿瘤的临床信息、m RNA表达数据和剪接数据,我们对选择性剪接在肿瘤中具有的临床意义进行了深入探究。方法:利用肿瘤组织与肿瘤旁正常组织PSI均
模糊拓扑学是以一般拓扑学为特款的一种新的拓扑理论.序结构的引入,使得对模糊拓扑同一性质的研究呈现多样化,换句话说,人们可以从不同的逻辑系统对同一个性质做出不同的解读
早期储层地质建模方法有两种:基于两点的地质统计学方法和基于目标的方法。两点地质统计学方法以空间两点相关性作为统计基础,以基于变差函数的方法为代表方法,该类型方法以