【摘 要】
:
稠密线性代数运算对模式识别和生物信息等许多实际应用至关重要,而通用矩阵乘(GEMM)处于稠密线性代数运算的基础地位。在cuBLAS与MAGMA中,GEMM被实现为若干kernel函数,对大型
论文部分内容阅读
稠密线性代数运算对模式识别和生物信息等许多实际应用至关重要,而通用矩阵乘(GEMM)处于稠密线性代数运算的基础地位。在cuBLAS与MAGMA中,GEMM被实现为若干kernel函数,对大型GEMM计算能够达到很高的性能。然而,现有实现对批量的小型GEMM计算性能发挥则较为有限。而且,现有实现也不能在多个具有不同性能的GPU之间自动扩展并达到负载均衡。提出任务并行式GEMM(TPGEMM),用细粒度任务并行的方式实现批量矩阵乘和多GPU矩阵乘。一个或多个GEMM的计算能够被拆分为多个任务,动态地调度到一个或多个GPU上。TPGEMM避免了为批量矩阵乘启动多个kernel函数的开销,对批量矩阵乘能够取得显著高于cuBLAS与MAGMA的性能。在低开销细粒度任务调度的基础上,TPGEMM支持单个GEMM计算在多个GPU间的自动并行,在一台具有四个不同性能GPU的工作站上取得了接近100%的扩展效率。
其他文献
随着小波理论的发展,小波变换的应用越来越广泛,文中结合雷达信号处理的主要技术,将小波变换应用在雷达信号处理中,重点研究了小波变换在雷达信号噪声处理方面的应用。研究表
肿瘤细胞的快速增殖依赖于细胞内的多胺水平,耗竭细胞内多胺可抑制肿瘤细胞增殖并诱导其凋亡。与此同时,细胞内多胺含量的改变可以影响肿瘤细胞内多种信号通路的活性,依据受
目的:评价热敏灸治疗周围性面瘫的有效性和安全性。方法:电子检索CBM(1978年-2014年)、CNKI(1979年-2014年)、VIP(1989年-2014年)和Wanfang(1998年-2014年),并辅以手工检索,
GPS由于其高精度、速度快、全天候的特点,在工程测量及城市工程网的建立、更新和改造中广泛应用。但是GPS测量结果为WGS-84坐标,而实际应用的坐标系往往是1954北京坐标系和19
<正>近日,道康宁公司为了满足客户需求,推出道康宁OE-6370系列光学封装胶,进一步扩充了LED专用的双组分甲基硅橡胶封装材料的产品线。OE-6370M专为气压式点胶设计,粘性低,使
主要介绍了地基合成孔径雷达,阐述了干涉测量成像系统IBIS-L的结构和基本原理,将IBIS-L系统应用于国内外几个大坝的变形计算与分析,获得了较为准确的大坝位移量,认为IBIS-L系
<正> 时间:一九六○年春地点:前进农业机械厂车间办公室人物:韩玉英女22岁。团员,车工,小组长:“三八红旗手”。小兰女,18岁,徒工。王永强 23岁,团员,钳工,玉英的爱人。王大
<正>主体认识过程中的意识要素,按其自觉程度,有意识和无意识之别.事实上,人的活动也不可能时刻处于意识状态(自觉思维、紧张状态).弗洛伊德就认为人的精神活动好象飘浮在大
目的:从性激素水平角度探讨枇杷清肺饮治疗肺胃蕴热型寻常痤疮的机制。方法:将符合纳入标准96例寻常痤疮的患者,随机分为两组,每组48例,治疗组口服枇杷清肺饮,对照组口服消痤
根据林产品贸易信息的特点,利用一种复合关键词向量空间模型来表示林产品贸易信息网站的用户兴趣模型:向量空间中的每一个复合关键词包括供求分类、林产品名称和产地三个关键