稀疏矩阵向量乘的访存分析和优化

来源 :2011年全国高性能计算学术年会(HPC china2011) | 被引量 : 0次 | 上传用户:L936355705
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  稀疏矩阵向量乘(SpMV)是科学计算中最重要的核心算法之一。理论分析和实际测试结果都表明,SpMV属于访存密集型应用。由于目前主流编译器尚不能充分利用现代处理器的访存特性,SpMV对带宽利用率仅为10%。本文通过探索现代处理器的访存特征,使用单指令流多数据流(SIMD)对SpMV进行流水线访存优化。实验表明与标准SpMV相比,优化后的SpMV在Intel Nehalem和SandyBridge架构上流水线性能分别有63%和89%的提升,在AMD Opteron 6168和Opteron 8374 HE上分别有30%和36%的提升。SpMV在实际矩阵进行的性能测试中,Intel Nehalem和SandyBridge架构上均有10%的性能提高。
其他文献
归约算法在科学计算和图像等领域有着广泛应用,本文系统研究了在OpenCL 框架下,归约算法在 GPU上的跨平台性能优化.已有研究工作一般只侧重单个硬件架构,本文基于 OpenCL 从向量化、片上存储体冲突、线程组织方式和指令选择优化等多个优化角度系统考察了不同优化方法在GPU 硬件平台的影响.具体以minMax函数为例对每种优化方法进行了详细的性能分析,并给出了提高性能的原因.在AMD GPU和N
线弹性理论广泛应用于结构分析与工程设计,与之对应的线弹性问题亦为工程与科学计算研究的重要对象。本论文首先提出线弹性问题模型。然后,详细介绍一种适用于求解线弹性问题的可扩展并行一水平和两水平区域分解算法。最后,给出一些相关数值实验结果,其验证了方法的可行性与适用性。
多核处理系统已成为当前业界的主导,然而,多核处理器软件编程环境和编译器的开发却相对滞后。本文提出了一个编译框架,该框架将数据并行程序直接映射到异构多核系统上。基于分布式存储模型,编译器执行数据对齐、数据分布、计算分布,并为应用生成SPMD并行代码。与其它工作不同,本文的框架通过管理程序的数据布局来提高数据局部性。实验结果表明本文的编译框架能够高效地将应用映射到异构多核处理器上。
随着虚拟化技术的广泛使用,虚拟机中域间通信问题日趋重要。传统的域间网络通信通过完整的网络协议栈发送数据,并设有针对通信双方处于同一台物理机器上不需要经过物理网络的特点进行优化。这导致域间网络通信速率非常低下,使得域间通信速度成为一些通信密集型应用的的瓶颈。本文在Xen平台上实现了一种基于共享内存的域间通信方法,该方法简化了域间通信的过程能大大提高通信速度。实验证明该方法能够将Xen的域间通信速率提
随着高性能计算机系统规模的扩大,功耗已成为阻碍高性能计算机系统发展的主要瓶颈之一。调度系统作为系统软件的组成部分,在系统级功耗优化方面发挥着重要作用。目前,对节能调度的研究逐渐增多。本文首先对高性能领域中的不同节能调度策略进行了分类阐述,然后介绍了能效的主要评价指标。最后,总结并展望了该领域未来的研究发展方向。
基于网络的分布式设备远程故障诊断专家系统是发展的趋势,本文在介绍云计算的概念和基本原理的基础上,提出了一种基于云计算的设备故障诊断专家系统方案,并详细介绍了方案的设计思路。本方案的设计提高了设备状态监测、故障诊断的效率,降低了状态监测中的资源浪费。
本文介绍了一个并行可扩展程序,它使用间断有限元方法数值模拟三维多相流问题。程序中采用的算法是利用多相流方程的特点,在一个时间步里将求解压力和求解饱和度分开,首先联立方程组消去饱和度来单独求解压力;在压力已知的情况下,再来显式求解饱和度;然后使用迭代的方法最终确定这个时间步里的压力和饱和度。我们的程序是基丁二维并行自适应有限元平台 PHG实现的,采用非结构四面体网格对计算区域进行划分,实现了LDG(
为了满足教育资源网格用户的资源检索需求,考虑教育资源网格的节点组织模式和资源分布特点,提出了一种基于单维语义向量组的分布式Top-k全文检索算法。该算法通过改进经典的VSM模型,利用教育资源网格中管理节点构建单维语义向量组,资源节点直接计算文档资源和检索向量的全局语义相关度,结合文档本身质量进行Top-k评分,实现了在分布式环境下的全文信息检索;提出一种结合检索向量语义相关度和节点属性的Top-k
根据交通流的动态变化情况,实时优化交通信号配时,是减少交通延误,提高交通效率的有效方法.为减少信号优化时间,提高时效性,提出一种并行化的交通信号对比分析算法,该算法首先根据专家经验和交通管理常识设定一定的信号变化区间,然后针对该区间给定变化区间△,依次给定相应的信号配时策略,然后将每一种信号配时策略分配给集群系统中的一个计算节点,由各个计算节点分别进行仿真运算,最后由主节点聚合分析,对比给出最优信
灰度弥散模型被广泛应用于模拟星模拟器的成像过程。在实际问题域中,该模型需要巨大的计算能力以完成繁重的数值计算,而目前图形处理单元(GPUs)已经发展成为一种有效的数值处理平台,对于计算密集型模拟具有很好的加速能力。本文设计并实现了GPU平台下,基于统一计算架构(CUDA)的并行灰度模型,可应用于大规模星模拟器的快速灰度模拟。首先分析了该模型具有的双重并行特性并采用CUDA模型模拟其良好的数据并行特