【摘 要】
:
稀疏矩阵向量乘法是数值计算的核心子程序之一。在实际应用中使用迭代法求解大规模稀疏线性方程组来逼近其精确解,Sp MV作为迭代求解的主要计算步骤通常需要执行数千次。然而,相关处理器硬件的复杂加上稀疏矩阵的稀疏特征导致了计算的负载不均衡并形成了内存瓶颈,这使得优化Sp MV的性能十分困难。ARMv8-A是ARM推出的一款高性能计算处理器架构,首次支持开始支持64位的指令集,提高了双精度浮点运算能力,并
论文部分内容阅读
稀疏矩阵向量乘法是数值计算的核心子程序之一。在实际应用中使用迭代法求解大规模稀疏线性方程组来逼近其精确解,Sp MV作为迭代求解的主要计算步骤通常需要执行数千次。然而,相关处理器硬件的复杂加上稀疏矩阵的稀疏特征导致了计算的负载不均衡并形成了内存瓶颈,这使得优化Sp MV的性能十分困难。ARMv8-A是ARM推出的一款高性能计算处理器架构,首次支持开始支持64位的指令集,提高了双精度浮点运算能力,并且支持通过NEON扩展指令集架构提供SIMD向量化加速,吸引了越来越多研究者和芯片产商的目光。本文为了提高SpMV在ARM多核处理器平台上的计算性能做出了以下贡献:针对稀疏矩阵非零元分布不连续造成计算过程中对向量x访问不连续,导致使用SIMD技术加速Sp MV效果不高的问题,基于CSR格式和ELL格式提出了ACSR和AELL两种对齐格式对齐了ARM多核处理器的向量寄存器长度。为了分析对齐存储格式对Sp MV性能的提升,本文从SIMD指令延迟、访存次数和缓存不命中次数对Sp MV计算性能进行理论分析,得到了对齐存储格式带来的性能提升与其非零元填充率的关系。最后在选用的数据集上进行验证得到,与基于CSR和ELL格式的Sp MV相比,使用ACSR和AELL提高了访存效率和向量寄存器的使用效率,在鲲鹏920处理器上实现1.18和1.21的加速比,其中基于ACSR格式的Sp MV与PETSc函数库中Sp MV相比的加速比为1.56。并且,ACSR格式在指令延迟和访存次数方面的理论结果与实验结果的偏差为10.26%和10.51%,而AELL格式的偏差为5.68%和2.91%。针对ARM多核平台使用NUMA架构带来的访存瓶颈,本文采取了分块后重组的分块策略以及NUMA亲和策略。首先对稀疏矩阵进行细粒度分块,然后根据处理器计算资源进行组合后再根据节点分布在节点上重新分配内存空间,大幅减少了计算时的数据迁移带来的访存延迟。最后实验验证该分块策略相比未分块时达到了平均2.66的加速比,与PETSc函数库中Sp MV相比的平均加速比为2.44。本文针对ARM的向量运算器以及其多核平台使用的NUMA架构对Sp MV进行了优化,提高了Sp MV计算时的访存带宽和处理器利用效率,适用于目前主流的国产ARM多核处理器。
其他文献
金属屋面在我国应用广泛,但近年来风揭事故频发,迫切要求开展金属屋面系统的抗风研究工作。金属屋面板的静力性能评估方法及对应的测试标准较为成熟,但动态检测方法还存在诸多不足。金属屋面的疲劳效应往往是其风致破坏的主要原因,屋面板疲劳损伤累积会降低其抗风承载力,加速破坏进程。目前,我国的金属屋面抗风揭性能检测标准主要参考国外标准,且以静力性能检测为主要目标。合理评估建筑物金属屋面的疲劳损伤,对金属屋面板动
锂金属具有高能量密度(3860 m Ah g-1)和低还原电位(-3.04 V vs NHE)被认为是未来高能量密度电池负极中具有潜力的材料之一。然而,锂枝晶生长问题和低库伦效率一直限制着金属锂在商业化上的应用。针对金属锂负极存在的问题,本课题分别从锂负极表面改性研究以及设计凝胶聚合物电解质两方面开展研究工作。从减少锂负极与电解液的接触,促进锂离子均匀沉积以及降低负极膨胀效应等方面出发,避免锂枝晶
17β-雌二醇(E2)是一种环境内分泌干扰物,可在小剂量下对环境造成极大危害,现有的污水处理技术无法有效的完全去除E2,因此有必要研究一种更高效的去除方法。高级氧化法能有效去除环境中的污染物,特别是基于过硫酸盐的高级氧化技术已被广泛研究用于有机污染物的去除,然而过硫酸盐需要适当的活化才能产生活性物质来分解污染物,纳米零价铁是一种高效且环境友好的过硫酸盐活化剂,但因其易于氧化和聚集,需将其负载在合适
近几十年来,随着中国经济的发展,人们对交通运输的需求与日俱增,不断增加的交通运输负载对现有桥梁结构的安全性能造成了挑战。与此同时,大多数现役中小型桥梁结构没有条件安装昂贵的桥梁健康监测设施,建立一种可靠、高效且经济的方式对此类桥梁结构进行快速检测评估十分必要。桥梁影响线作为反映桥梁结构性能的重要指标,在桥梁性能评估、桥梁损伤识别、桥梁动态称重等方面有着广泛的应用。对于缺乏桥梁动态称重系统支持的中小
网络入侵检测系统能够发现可疑的网络攻击,并采取一系列保护网络安全的措施来减少用户的损失。网络流量分类则是网络入侵检测任务中的重点,它可以判断所收集的网络流量数据,并检测出具有攻击行为的流量。因此,网络流量分类和入侵检测对于保护网络安全至关重要。机器学习和深度学习方法的出现和发展,使得网络流量分类和入侵检测的效果也得到了一定的提升。但是,目前基于机器学习或深度学习的流量分类检测方法,依然存在诸如流量
织物增强混凝土(Textile Reinforced Concrete,TRC)在过去二十年中获得了广泛的研究。TRC具有高强度,高韧性等优点,可以显著改善水泥基材料低抗拉强度的力学性能。若水泥浆体不能充分浸入纤维束内部,会造成纤维束受力不均匀,外层纤维受力较大而先发生破坏,从而阻碍了纤维强度的充分利用,为提高TRC的整体性能,通常需要对纤维进行处理。因此本文以探究不同纤维处理方式对TRC力学性能
地铁由于高速、快捷且不占地面空间,近二十来年来在我国各大城市得到前所未有的超速发展,导致对地铁基础配套设施的需求增长迅速。地铁屏蔽门系统为各地铁站基础配套设施,其立柱类结构件为屏蔽门系统的骨架和核心部件,其焊接质量直接影响屏蔽门系统的功能,进而影响地铁的安全、舒适、节能运行。基于地铁屏蔽门立柱结构件需求量剧增而当前普遍采用手工焊接存在的焊接效率低下、质量一致性差、受工人技术水平、工作状态和经验影响
锂硫电池由于其超高的理论能量密度(2600 Wh kg-1)和正极硫的廉价性而被认为是下一代储能新技术的有力竞争者。然而硫自身的性质及其电化学行为引起了许多不利因素,尤其是多硫化物的穿梭效应,严重阻碍了锂硫电池的实用化进程。近年来出现了采用电催化剂加速多硫化物转化的新策略,该策略可有效降低穿梭效应影响。在众多催化材料中,过渡金属催化剂由于其较大的比表面积和高活性的催化位点而备受关注,例如Fe、Co
对氨基苯胂酸(Arsanilic acid,ASA)作为一种有机砷饲料添加剂,广泛用于牲畜和家禽生产,以预防疾病和促进增长。被动物摄入的ASA有超过90%不会被同化吸收而是原原本本地随尿液和粪便被排泄出来。通常,这些排泄物作为肥料被运往农田。由于ASA的高水溶性,它很容易被雨水或灌溉用水淋溶进入水环境中,造成附近的水体中总砷含量的升高。在自然界中,ASA可以轻易地通过厌氧生物降解或自然光降解等方式
随着人们生活水平的提高和经济的飞快发展,人们对清洁水的需求不断提高。淡水资源短缺和水污染是21世纪人类面临的两个最重要的环境问题,这就要求人们继续寻找对环境友好、成本效益高的海水淡化技术。流动电极电容去离子化(FCDI)因其卓越的海水淡化能力和可以持续不间断的运行而受到越来越多的关注。研究人员对于干扰FCDI脱盐性能的重要要素,包括电极材料、电解质溶液等一直有所研究,也不断对FCDI装置的设计进行