【摘 要】
:
BLAS level-3运算的计算复杂度较高,其往往成为应用的性能瓶颈。采用线性阵列结构的矩阵乘协处理器可实现高性能、高效的矩阵乘运算。在矩阵乘协处理器上高效实现BLAS level-
【基金项目】
:
国家自然科学基金(61732018)
论文部分内容阅读
BLAS level-3运算的计算复杂度较高,其往往成为应用的性能瓶颈。采用线性阵列结构的矩阵乘协处理器可实现高性能、高效的矩阵乘运算。在矩阵乘协处理器上高效实现BLAS level-3运算,对大规模科学与工程仿真应用的计算加速至关重要。以矩阵乘为核心运算,结合线性阵列的结构特点,提出了矩阵乘协处理器上BLAS level-3运算的设计,并构建了相应的性能分析模型。实验结果表明,矩阵乘协处理器上SYMM、SYRK和TRMM运算的计算效率分别达到了99%,98%和80%,与SW26010和NVIDIA V1
其他文献
黄翔鹏是20世纪最杰出的民族音乐学家之一,开创了传统宫调理论研究之先河。他为"宫调"及"宫调理论""乐学"与"律学""音"及"音阶""旋宫"与"转调"等一系列概念、术语所作的规范
节奏是音乐的重要表现要素,是视唱练耳教学的三个重要环节之一,在视唱练耳课堂上占有重要的教学篇幅和教学地位。节奏教学是视唱练耳这门学科的主要内容,也是培养学生音乐感
英国政府2006年1月23日开始就是否建造下一代核电厂展开磋商,但评论家认为,这次审议仅仅是已然做出的决定的幌子而己。
【欧洲核学会核新闻网2009年7月9日报道】在斯诺文尼亚克尔什科市(Krsko)建设一座中低放废物最终处置库的建议近日取得重要进展。
伴随着中国经济的飞速发展,中国的小型企业也日益壮大,在国家经济体系中扮演了越来越重要的角色。在湖南省常德市,不断增长的小型企业极大地缓解了当地的就业压力、维护了社
为满足智能变电站远程倒闸操作的要求,充分减少人力资源的消耗,推动智能变电站的智能化建设,研究提出一种基于图像处理与识别的方法远程对隔离开关的开合状态进行识别。首先
随着竞争环境动态性的不断增强,企业需要更多的是面向战略需求的技术集成,把新知识、新技术创造性地集成起来,以提升自主创新能力,而支撑技术集成有效实施的技术集成能力已经
2010中国中西医结合瘘外科专题研讨会于2010年5月22—24日在沈阳召开,主办单位为中国中西医结合学会大肠肛门病专业委员会。本次大会与会代表计330余人。16位全国知名肛肠专
自计算机诞生以来,数字化、信息化和互联网技术的发展在相对理想的科技环境中获得了飞速提升。大量数字化数据和信息的产生已成为当今社会大数据时代背景下的必然现象。互联
随着家庭汽车保有量的不断提升,加上最近油价也开始下降。开车出行的人越来越多了,不过这也带来一个麻烦。就是常常会迷路。迷路带来的困扰不光是来回找路浪费了汽油,而且还耽误