基于ARMv8架构的面向机器翻译的单精度浮点通用矩阵乘法优化

来源 :计算机应用 | 被引量 : 0次 | 上传用户:sunning1002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对使用ARM处理器的移动智能设备执行神经网络推理计算效率不高的问题,提出了一套基于ARMv8架构的单精度浮点通用矩阵乘法(SGEMM)算法优化方案。首先,确定ARMv8架构的处理器执行SGEMM算法的计算效率受限于向量化计算单元使用方案、指令流水线和缓存未命中的发生概率;其次,针对三点导致计算效率受限的原因实现向量指令内联汇编、数据重排和数据预取三条优化技术;最后,根据语音方向的神经网络中常见的三种矩阵模式设计测试实验,实验中使用RK3399硬件平台运行程序。实验结果表示:方阵模式下单核计算速度为10.
其他文献
目的探讨丁苯酞联合血栓通治疗缺血性脑卒中的应用效果。方法 90例缺血性脑卒中患者,根据随机数字表法分成对照组和联合治疗组,各45例。对照组患者给予丁苯酞治疗,联合治疗组
因为恶意网购(评价)行为具有偶发性和隐蔽性,所以成为卖家和网购平台提供者关注的问题。针对这一问题,本文设计了一种方案,即通过分析网上购物历史交易数据集(偏斜数据集),找出恶
目的探讨实施内镜逆行胰胆管造影术联合乳头括约肌切开术治疗与患者发生术后胰腺炎的关系。方法全面检索2013年7月以前公开发表的实施内镜逆行胰胆管造影术联合乳头括约肌切
由于古代文学作品在内涵上的极大丰富和巨大的张力,对当代中职学生文化素养的培养起到了巨大作用。中国古代文学作品中所涵盖的价值可以直接"为我所用"成为引导学生的重要价
智能制造已成为全球制造业发展的趋势,日本正在加速制造业和信息技术的融合革新,通过制定工业4.1J计划、建立产业价值链主导权联盟等举措,打造符合全球制造业未来趋势、满足本国
目的了解护理干预对新生儿脐部感染的预防效果。方法选取我院2018年7月~2019年1月的150例新生儿,随机分为两组,常规护理组对于本次就诊新生儿脐部感染患儿给予常规护理,优质
目的 了解中国飞行员痰湿体质影响因素.方法 采用《中医体质分类与判定》标准,对2009年1-12月在空军某医院健康体检的200例中国飞行员进行中医体质分类调查,通过二分类Logist
目的探究z成形术在面部直线瘢痕整形修复中的应用效果。方法抽取来我院就医的40例面部直线瘢痕整形修复患者(2014年11月至2016年11月)作为此次实验的目标对象,对20例患者实施随
目的探讨安石榴甙保护脂多糖(lipopolysaccharide,LPS)诱导的小鼠急性肺损伤(acute lung injuery,ALI)的机制。方法腹腔注射20mg/kg体质量的LPS制备ALI小鼠模型,诱导小鼠ALI
本文介绍了UCM轧机的设计原理及其弯辊横移装置的设计,并指出了UCM轧机的不足之处。