面向新一代国产E级超算系统的稀疏矩阵与stencil运算性能优化方法研究

来源 :南昌大学 | 被引量 : 0次 | 上传用户:rambo0316
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
冯·诺伊曼架构依然是现如今计算机系统主流的体系架构。它的访存“瓶颈”依然难以逾越,与访存“瓶颈”相关的运算主要可分为两类:稀疏矩阵运算与Stencil。本文基于新一代申威异构众核处理器对上述两类算法展开深入研究,对现有关于两类算法的性能优化技术进行改进,创新性提出面向异构众核体系架构的性能优化方法,主要研究内容如下:第一、提出耦合Cholesky/Jacobi块迭代预条件算法,基于几何分块的并行策略将矩阵分解算法局部化,彻底消除矩阵求逆并行化过程中的数据通信。充分考虑新一代申威异构众核体系架构特性对稀疏矩阵向量乘法运算设计基于RMA双CACHE众核优化算法。通过利用开源计算框架Open FOAM的benchmark实验测试可知,在矩阵规模为2354928×2354928时单核组求解速度是Open FOAM中原不完全Cholecky分解法预条件子的9.15倍,是代数几何多重网格预条件子的8.3倍。第二、结合稀疏矩阵运算特点开展基于非结构网格离散数据访问方法研究,提出基于新一代申威异构体系架构的离散访存优化算法。该算法充分利用申威从核片上通信机制设计了消息队列算法提高片上数据通信性能,同时还提出了无阻塞的数据分发策略,进一步提升离散访存整体性能。通过实验分析可知该算法的平均访存带宽为理论值的70%以上,同时对于不同离散访存核心计算,在使用该算法前后进行测试得到最高45倍和平均10倍加速比。最后从不同领域的应用测试充分验证该算法的普适性与健壮性。第三、将Stencil运算特点与实际应用软件充分融合,从实际问题出发深入分析Stencil运算在新一代申威架构的性能优化方法:(1)设计了基于申威异构众核架构的自适应四级并行框架,与传统三级并行相比,提出了依赖主-从架构融合的新的并行层级。通过测试可知该算法使主从优化加速比从12倍提升至65倍,且实测内存带宽逼近理论值。(2)提出基于申威RMA片上通信机制的一部分块并行算法和动态缓存调度算法,实现数据在时间和空间上的高效利用。(3)探索了基于半精度、单精度、双精度的混合精度方法,在保持应用计算结果正确的同时有效地提高了应用软件的整体性能。结合上述的三个创新性算法,最终在优化70.58的可并行热点情况下实现了整体应用软件7.53倍的加速性能,超过了理论值6.8倍。最终在全球500m分辨率算例测试中使用27988480个申威处理器计算核的并行效率高达99.29%。
其他文献
针对多目标规划进化算法中测试函数的Pareto最优解集模式单一、种群多样性与算法收敛速度相互牵制的问题,本文采用深度卷积神经网络(convolutional neural networks,简称CNN)设计了一种多目标规划问题的机器学习方法,利用CNN进行特定边缘提取实现了Pareto最优前沿的“瞬间”提取。为测试算法的效率和普适性,将5个经典多目标规划问题进行了改进,不仅增加了测试模型的最优Pa
学位
随着宏观经济增速放缓,互联网金融快速崛起,国内金融市场化程度不断提高,银行间竞争日趋激烈,传统国有银行的市场份额逐步萎缩,国有银行只有提高自身核心竞争力才能获得竞争优势。对国有银行而言,二级分行既是贯彻总行战略的关键环节,又是内部管理的薄弱环节,二级分行的经营能力决定着全行的发展潜力。由于银行产品同质化严重,无法通过产品差异获得优势取胜,科学高效地内部管理及人才优势更能发挥出银行的竞争优势。在银行
学位
知识经济时代,科学技术在推动社会经济发展中发挥着至关重要的作用。学术创业作为将学者的知识、研究或技术发明付诸于应用,有效推动科技成果转化的关键活动逐渐受到关注。狭义上,学术创业是指学者参与商业创业活动的过程,是将知识成果转化为现实生产力的主要路径。目前,审视我国高校学术创业发展与实践,仍普遍存在权责利不明、转化率低、政策与公共服务缺位等价值隔离与传递障碍等问题,且未能形成具有协同效应的学术创业生态
学位
热电联产经济调度(Combined Heat and Power Economic Dispatch,CHPED)问题旨在满足各种系统约束和运行约束的条件下根据用户的热负荷和电负荷需求对纯电力机组、纯热力机组和热电联产(Combined Heat and Power,CHP)机组进行合理的能量调度,使系统成本最小化。CHP机组作为CHPED问题的主要成分,能够回收纯电力机组产生的余热并向用户同时提
学位
股权质押即上市公司将其所持有的公司股权当作质押物从银行、证券、信托等金融机构获取所需要的资金,对于国内上市公司来说,股权质押是一种较为常用的融资方式。另一方面,对于证券公司而言股权质押业务亦是重要的业务来源之一,ZS证券作为国内知名券商,于2013年便开始进行此项业务。然而由于近年ZS证券在进行股权质押业务时发现的违约情况屡见不鲜,资产减值金额亦在逐年增加,一定程度上反映出目前ZS证券在股权质押业
学位
多模态多目标优化问题(Multimodal Multiobjective Optimization Problems,MMOPs)是在决策空间中存在多个帕累托最优解集(Pareto optimal Sets,PSs)的多目标优化问题。求解MMOPs旨在找到对应于目标空间中同一个帕累托前沿(Pareto Front,PF)的多个PSs。研究者们已经提出了大量的多模态多目标进化算法来求解MMOPs,但
学位
据统计,全球汽车销售量同比增长超过4%,汽车带来的环境污染和交通堵塞问题已经成为全球不可避免、亟需解决的难题。因此,对城市交通网络进行研究和优化,不仅能够让居民出行更便捷,还能有效降低对环境的污染。从理论和实际角度,应用前景都很广阔。本论文首先对一类特殊的双层多目标规划问题——半向量双层规划问题设计罚函数方法,然后采用双层多目标规划问题研究城市交通系统中的拥堵问题和环境污染问题,主要工作包括:(1
学位
研究目的:中国老年高血压患者的人数激增,给老年人带来了健康损害与生活质量低下,给社会和家庭带来了精神负担和经济负担。近年来,多数研究证明了老年人习惯步速与高血压发病率、死亡率的关系,然而鲜少研究关注中国老年人的习惯步速与高血压患病率的关系。本研究的研究目的为探讨不同性别、年龄的老年人习惯步速与高血压患病率之间的关系,为老年人群用习惯步速作为辅助诊断、提早发现高血压的工具提供研究基础。研究方法:本研
学位
随着城市化进程不断加快,环境污染引发的各类生态环境问题已成为制约社会发展的瓶颈。为保障生态环境可持续发展,优化排污权资源配置,加快排污权管理模式创新势在必行。多层规划作为一种描述具有递阶结构系统优化问题的有力工具,已被广泛应用于市场管理,交通网络,资源分配,供应链管理,价格控制等领域。因此,利用多层规划系统地构建排污权市场交易机制,活跃排污权交易市场,对实现排污权优化配置,提高排污权利用效率,缓解
学位
目的:构建急性脑卒中后吞咽功能障碍筛查及摄食训练管理流程,并将其应用于急性脑卒中后吞咽功能障碍患者,为规范急性脑卒中后吞咽障碍筛查及摄食管理提供参考依据。方法:1.采用文献回顾及归纳法初步拟定急性脑卒中后吞咽障碍筛查及摄食训练管理流程体系等级及条目。2.采用德尔菲法(Delphi)组织专家咨询,确定急性脑卒中后吞咽障碍筛查及摄食训练管理流程体系等级及条目,完成急性脑卒中后吞咽障碍筛查及摄食训练管理
学位