基于ARMv8架构的面向机器翻译的单精度浮点通用矩阵乘法优化

来源 :计算机应用 | 被引量 : 0次 | 上传用户：sunning1002

【摘要】

：

针对使用ARM处理器的移动智能设备执行神经网络推理计算效率不高的问题,提出了一套基于ARMv8架构的单精度浮点通用矩阵乘法(SGEMM)算法优化方案。首先,确定ARMv8架构的处理器

【作者】

：

龚鸣清叶煌张鉴卢兴敬陈伟

【机构】

：

中国科学院计算机网络信息中心,中国科学院大学,北京搜狗科技发展有限公司

【出处】

：

计算机应用

【发表日期】

：

2019年6期

【关键词】

：

ARMv8 单指令多数据流计算基础线性代数子程序库高性能计算

【基金项目】

：

国家重点研发计划项目(2016YFB0201100,2017YFB0202803);国家自然科学基金资助项目(11871454,91630204,61531166003);中国科学院战略性先导科技专项(B类)(XDB22020102);中国科学院信息化专项(XXH13506-204)~~

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对使用ARM处理器的移动智能设备执行神经网络推理计算效率不高的问题,提出了一套基于ARMv8架构的单精度浮点通用矩阵乘法(SGEMM)算法优化方案。首先,确定ARMv8架构的处理器执行SGEMM算法的计算效率受限于向量化计算单元使用方案、指令流水线和缓存未命中的发生概率;其次,针对三点导致计算效率受限的原因实现向量指令内联汇编、数据重排和数据预取三条优化技术;最后,根据语音方向的神经网络中常见的三种矩阵模式设计测试实验,实验中使用RK3399硬件平台运行程序。实验结果表示:方阵模式下单核计算速度为10.

其他文献

丁苯酞联合血栓通治疗缺血性脑卒中的分析与评价

目的探讨丁苯酞联合血栓通治疗缺血性脑卒中的应用效果。方法 90例缺血性脑卒中患者,根据随机数字表法分成对照组和联合治疗组,各45例。对照组患者给予丁苯酞治疗,联合治疗组

期刊

丁苯酞血栓通缺血性脑卒中应用效果

恶意网购行为分类算法研究

因为恶意网购（评价）行为具有偶发性和隐蔽性,所以成为卖家和网购平台提供者关注的问题。针对这一问题,本文设计了一种方案,即通过分析网上购物历史交易数据集（偏斜数据集）,找出恶

期刊

恶意网购行为经典分类算法神经网络算法SSGP算法偏斜训练集

ERCP联合EST治疗与患者术后发生急性胰腺炎关系的Meta分析

目的探讨实施内镜逆行胰胆管造影术联合乳头括约肌切开术治疗与患者发生术后胰腺炎的关系。方法全面检索2013年7月以前公开发表的实施内镜逆行胰胆管造影术联合乳头括约肌切

期刊

内镜逆行胰胆管造影术乳头括约肌切开术急性胰腺炎Meta分析

中国古代文学作品在语文教学中的价值

由于古代文学作品在内涵上的极大丰富和巨大的张力,对当代中职学生文化素养的培养起到了巨大作用。中国古代文学作品中所涵盖的价值可以直接"为我所用"成为引导学生的重要价

期刊

古代文学作品语文教学价值

日本“制造业+IT”融合革新趋势

智能制造已成为全球制造业发展的趋势，日本正在加速制造业和信息技术的融合革新，通过制定工业4.1J计划、建立产业价值链主导权联盟等举措，打造符合全球制造业未来趋势、满足本国

期刊

制造业智能制造未来趋势海外工厂

护理干预对新生儿脐部感染的预防效果分析

目的了解护理干预对新生儿脐部感染的预防效果。方法选取我院2018年7月~2019年1月的150例新生儿,随机分为两组,常规护理组对于本次就诊新生儿脐部感染患儿给予常规护理,优质

期刊

护理干预新生儿脐部感染预防效果

飞行员中医痰湿体质影响因素的研究

目的了解中国飞行员痰湿体质影响因素.方法采用《中医体质分类与判定》标准,对2009年1-12月在空军某医院健康体检的200例中国飞行员进行中医体质分类调查,通过二分类Logist

期刊

军事人员体质学说痰湿阻肺

z成形术在面部直线瘢痕整形修复中的应用效果分析

目的探究z成形术在面部直线瘢痕整形修复中的应用效果。方法抽取来我院就医的40例面部直线瘢痕整形修复患者（2014年11月至2016年11月）作为此次实验的目标对象,对20例患者实施随

期刊

z成形术面部直线瘢痕整形修复

安石榴甙保护LPS诱导的小鼠急性肺损伤的观察

目的探讨安石榴甙保护脂多糖(lipopolysaccharide,LPS)诱导的小鼠急性肺损伤(acute lung injuery,ALI)的机制。方法腹腔注射20mg/kg体质量的LPS制备ALI小鼠模型,诱导小鼠ALI

期刊

急性肺损伤安石榴甙NK-κBToll样受体4

UCM轧机的设计原理及其弯辊横移装置的设计

本文介绍了UCM轧机的设计原理及其弯辊横移装置的设计，并指出了UCM轧机的不足之处。

期刊

UCM轧机轧机设计原理弯辊横移装置设计

基于ARMv8架构的面向机器翻译的单精度浮点通用矩阵乘法优化

与本文相关的学术论文