基于GPU的高性能稀疏矩阵向量乘及CG求解器优化

来源 :2012全国高性能计算学术年会 | 被引量 : 0次 | 上传用户:pww030
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  以有限元/有限差分等为代表的一类数值方法,总体矩阵常常具有“带状”、稀疏的特点.本文针对“带状”稀疏矩阵,提出和实现了一种高效的矩阵向量乘存储格式和算法“bDIA”.基于nVidia的GTX280系列GPU进行测试,测试数据显示:与CUSP支持的5种常见稀疏矩阵存储格式和算法相比较,所提出的bDIA格式以及相应的spMV算法可以达到单双精度浮点效率均有1倍以上的提高,并突破了该系列GPU在spMV计算时4%的单精度浮点效率上限和22.2%的双精度浮点效率上限:应用于共轭梯度(CG)与稳定双共轭梯度(BiCGStab)求解器,相对于DIA格式均有1.5倍左右的加速.
其他文献
  现在MapReduce并行计算模型在不同场景下得到了广泛使用。由于网络IO传输速度通常远小于磁盘读取速度,所以Map任务的本地执行可以提高系统的吞吐率,减少作业执行时间。但
  OpenCL作为一种面向多种平台、通用目的的编程标准,已经对许多应用程序进行了加速.由于平台硬件和软件环境的差异,通用的优化方法不一定在所有平台都有很好的加速.本文通过
会议
  生物序列比对是生物信息学研究中最基本的研究方法。随着生物序列数据的快速增长,大批量序列比对变得极为耗时。针对这个问题,许多已有的高性能计算技术开始用于加速序列
  传统的K-means 算法局部搜索能力强,但是对初始化比较敏感,并且容易陷入局部最优值,这些缺陷严重限制了它的应用范围。针对目前普遍所存在的问题,本文提出一种改进的基于量子
  鉴于图形处理器的应用日趋广泛,多核SoC的研究日益迫切,本文设计了一款异构多核图形处理器HMGPU-9.HMGPU-9将9个具有不同功能和不同结构的微处理器核、大量复杂专用电路
  在OGRE 3D的场景管理器模块下增加渲染队列副本,采用基于Boost线程库的相关信号量和函数构建OGRE 3D多线程模型,建立前后台读写缓冲并形成流水机制,实现OGRE 3D在多核平
  Conventional debugging techniques allow users to control program execution only in the forward direction,forcing developers to apply time-consuming methods
会议
  从单机性能优化角度对一个高阶精度结构网格CFD并行程序进行了优化.通过识别关键变量并对其进行常量参数化优化,使编译器能够实现更高级别的针对性优化;根据程序数据结构特
会议
  传统RBF神经网络在网络流量预测过程中存在收敛速度慢、极易出现局部最优等缺点,从而导致预测精度低。本文采用蚁群算法优化RBF神经网络参数来进行网络流量预测。利用蚁群
  为了获得高质量的插值图像,提出了一种支持向量机插值方法.先用改进的粒子群优化算法对支持向量机进行参数寻优,然后用寻优后的支持向量机在所选择的区域内应用图像相关性