新型众核并行体系结构高效稀疏矩阵向量乘研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:lb_super
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
稀疏矩阵向量乘(Sparse Matrix-Vector Multiplication,SpMV)是高性能计算应用中常见的算法之一。因为稀疏矩阵中非零元排布不规则,SpMV算法的高效实现十分困难,通常需要针对不同高性能并行计算平台进行优化。新型众核体系结构拥有更强的处理能力和更高的访存带宽,是当前高性能处理器发展的重要趋势,针对新型众核体系结构研究SpMV的高效设计实现对于高性能计算应用具有重要意义。本文首先系统地评估了SpMV并行算法在Intel Knights Landing(KNL)和基于ARM v8的FT-2000Plus(FTP)两款新型众核平台上的性能,深入分析了体系结构特征、稀疏矩阵存储格式和矩阵数据集对算法性能的影响。由于矩阵存储格式选择依赖专家经验,且不具有体系结构、数据集的普适性。本文采用基于机器学习方法构建稀疏矩阵格式选择模型,实现了针对不同体系结构和数据集的自适应格式选择。在此基础上,进一步提出一种面向新型众核体系结构的混合存储格式,旨在博取原生存储格式之所长。主要工作如下:(1)首次系统全面深入评估了稀疏矩阵存储格式在KNL和FTP众核体系结构处理器上的性能表现。实验涉及956个稀疏矩阵数据集和5种主流稀疏存储格式,研究了两种体系结构上,NUMA绑定、向量化以及稀疏矩阵结构特征等因素对SpMV性能的影响,对比了SpMV算法在两个平台上的性能。结果表明高效的稀疏矩阵存储格式与处理器架构和输入矩阵结构特征密切相关。(2)采用决策树训练矩阵格式预测模型,帮助程序员选择最佳矩阵格式。该模型使用矩阵结构特征和最佳矩阵格式标签作为训练数据集进行离线训练,可用于预测任何输入矩阵的最佳存储格式。使用决策树分析了预测模型内部运行过程,对比了多种机器学习建模方法的预测效果。实验结果表明,本文的模型在KNL和FTP平台上分别能够取得最优性能的95%和91%,而且在运行SpMV程序时不引入预处理开销。(3)提出了一种混合稀疏矩阵存储格式HYB5,并设计了相应SpMV算法。该格式基于SELL-C-σ和CSR5对计算矩阵进行分割,将计算规则部分用SELL-C-σ格式表示而将不规则部分用CSR5格式表示。在KNL平台上的实验结果表明,HYB5的性能优于原生格式SELL-C-σ和CSR5,加速比分别达到58倍和1.62倍。
其他文献
为切实提升办事效率,开展便民服务,海口市住建局物业管理处目前正开展“电子投票”和“物业云”信息系统的前期工作。按照设想,智慧小区“电子投票”和“物业云”系统可以开发AP
报纸
<正>生物信息学方法在生物信息分析中的应用研究为揭示生命现象的本质提供了重要的理论依据。我们利用小波变换、傅立叶变换和newZ-Curve等方法研究了基因序列的三周期特征和
呼叫定位系统宕机一分钟将损失近2.7万美元,ERP系统宕机一分钟的损失是1.3万美元,供应链管理系统的宕机损失是每分钟1.1万美元。
色彩作为一种供人们欣赏的美感存在着,它是每个动画中必不可少的创作形式,是不以人的意志为转移的,是一种主观意向。设计师在创作中,一定要融入自己的思想和感情。动画是静的
网络安全专家日前发出警告,一种新的恶性电子邮件蠕虫病毒伪装成多种语言的电子圣诞贺卡,它成功感染计算机的可能性将会很大。
针对高校校园体育文化生态化建设的探讨,文中介绍了生态体育运动的必要性,这是高校校园体育文化生态化建设的基础,同时介绍了大学生对生态体育的认识,这是高校校园体育文化生
介绍了马氏体不锈钢1Cr13Mo叶片补焊工艺,根据厂里要求修复后要达到的效果、马氏体不锈钢的特性、叶片磨损程度和工期要求合理制定焊接修复工艺,圆满完成叶片修复工作,目前机
  通过对不同熬煮条件下猪肉汤中游离氨基酸、核苷酸、肽分子量分布、维生素B1、嘌呤含量的测定,探究熬煮条件对猪肉汤中营养成分的影响.结果显示,游离氨基酸在96℃温度下
10月20日上午9时,广州大学城分布式能源站项目第二套机组顺利通过“72+24”小时试运行,正式投入商业运营,标志着广州大学城2&#215;78MW分布式能源项目全部竣工投产,这也是目前国内
<正>东白山位于诸暨邑东。太白之巅为会稽山脉最高峰,相传曾为葛洪当年修炼之地,同时有“并非仙境,胜似仙境”之说。经申报,2003年12月已被列为省级自然保护区。历史遗产是人