基于GPU的高性能稀疏矩阵向量乘及CG求解器优化

来源 :2012全国高性能计算学术年会 | 被引量 : 0次 | 上传用户：pww030

【摘要】

：

　　以有限元/有限差分等为代表的一类数值方法，总体矩阵常常具有“带状”、稀疏的特点.本文针对“带状”稀疏矩阵，提出和实现了一种高效的矩阵向量乘存储格式和算法“bDIA”.

【作者】

：

WANGYing-Rui[1]王迎瑞[2]RENJiang-Yong[1]任江勇[2]TIANRong[1]田荣[2]

【机构】

：

Institute of Computing Technology, Chinese Academy Of Sciences, Beijing 100190, China

【出处】

：

2012全国高性能计算学术年会

【发表日期】

：

2012年期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　以有限元/有限差分等为代表的一类数值方法，总体矩阵常常具有“带状”、稀疏的特点.本文针对“带状”稀疏矩阵，提出和实现了一种高效的矩阵向量乘存储格式和算法“bDIA”.基于nVidia的GTX280系列GPU进行测试，测试数据显示：与CUSP支持的5种常见稀疏矩阵存储格式和算法相比较，所提出的bDIA格式以及相应的spMV算法可以达到单双精度浮点效率均有1倍以上的提高，并突破了该系列GPU在spMV计算时4％的单精度浮点效率上限和22.2％的双精度浮点效率上限：应用于共轭梯度(CG)与稳定双共轭梯度(BiCGStab)求解器，相对于DIA格式均有1.5倍左右的加速.

其他文献

MapReduce本地优先作业调度策略研究与实现

　　现在MapReduce并行计算模型在不同场景下得到了广泛使用。由于网络IO传输速度通常远小于磁盘读取速度,所以Map任务的本地执行可以提高系统的吞吐率,减少作业执行时间。但

会议

作业调度策略本地执行并行计算模型Map执行时间传输速度数据分布负载均衡

基于OpenCL的均值平移算法在多个众核平台的性能优化研究

　　OpenCL作为一种面向多种平台、通用目的的编程标准，已经对许多应用程序进行了加速.由于平台硬件和软件环境的差异，通用的优化方法不一定在所有平台都有很好的加速.本文通过

会议

基于GPU的生物序列比对工具比较与评价

　　生物序列比对是生物信息学研究中最基本的研究方法。随着生物序列数据的快速增长,大批量序列比对变得极为耗时。针对这个问题,许多已有的高性能计算技术开始用于加速序列

会议

GPU生物序列比对高性能计算技术生物序列数据分析的方法研究方法生物信息快速增长

基于量子蚁群改进的K-means算法

　　传统的K-means 算法局部搜索能力强，但是对初始化比较敏感，并且容易陷入局部最优值，这些缺陷严重限制了它的应用范围。针对目前普遍所存在的问题，本文提出一种改进的基于量子

会议

量子蚁群改进蚂蚁算法K-means搜索能力两个方法局部

流水线型异构多核图形处理器的设计与原型实现

　　鉴于图形处理器的应用日趋广泛,多核SoC的研究日益迫切,本文设计了一款异构多核图形处理器HMGPU-9.HMGPU-9将9个具有不同功能和不同结构的微处理器核、大量复杂专用电路

会议

流水线型异构多核图形处理器设计微处理器核处理任务分配专用电路不同结构

三维图形渲染引擎的线程级并行及优化

　　在OGRE 3D的场景管理器模块下增加渲染队列副本,采用基于Boost线程库的相关信号量和函数构建OGRE 3D多线程模型,建立前后台读写缓冲并形成流水机制,实现OGRE 3D在多核平

会议

三维图形渲染引擎线程级并行OGRE多线程模型场景管理器有效提升函数构建

New Debugging Techniques with Reverse Debugging

　　Conventional debugging techniques allow users to control program execution only in the forward direction,forcing developers to apply time-consuming methods

会议

一个结构网格并行CFD程序的单机性能优化

　　从单机性能优化角度对一个高阶精度结构网格CFD并行程序进行了优化.通过识别关键变量并对其进行常量参数化优化，使编译器能够实现更高级别的针对性优化；根据程序数据结构特

会议

蚁群算法优化RBF神经网络的网络流量预测

　　传统RBF神经网络在网络流量预测过程中存在收敛速度慢、极易出现局部最优等缺点，从而导致预测精度低。本文采用蚁群算法优化RBF神经网络参数来进行网络流量预测。利用蚁群

会议

蚁群优化算法算法优化RBF神经网络网络流量预测收敛速度局部最优泛化能力流量预测模型

基于改进PSO的支持向量机图像插值方法

　　为了获得高质量的插值图像，提出了一种支持向量机插值方法.先用改进的粒子群优化算法对支持向量机进行参数寻优，然后用寻优后的支持向量机在所选择的区域内应用图像相关性

会议

改进PSO支持向量机图像相关性插值结果参数寻优插值方法粒子群优化算法

基于GPU的高性能稀疏矩阵向量乘及CG求解器优化

与本文相关的学术论文