基于GPU的稀疏矩阵运算优化研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:matlab_walker
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大规模稀疏矩阵的求解是高性能计算中的一个常见问题,广泛存在于工程实践尤其是计算机仿真领域。用常规方法解稀疏矩阵时,会浪费大量的计算资源。目前,在国内外,在通用计算领域对稀疏矩阵的运算研究较少。已有的研究主要是实现稀疏矩阵和向量之间的乘法运算。研究GPU上的稀疏矩阵向量乘法运算的实现并优化。针对于稀疏矩阵非零元素分布不均造成的空转问题以及同一线程组中线程不能合并访存的问题,提出了一种分段行合并存储策略的稀疏矩阵向量乘方法。针对于一个线程组内的线程间计算量负载不均衡而造成的线程间等待问题以及因线程不满足对全局存储器的合并访问要求而造成的访存延迟问题,提出了一种按行分块存储策略的稀疏矩阵向量乘方法。并针对以上两种方法实现了全局存储器的访存优化并使用纹理存储器和常数存储器对运算进行加速。实现了GPU上的稀疏矩阵线性方程求解的雅可比迭代法和广义最小残量法并优化。提出的优化方法可以推广至所有的GPU下求解稀疏矩阵线性方程的迭代法上,具有普遍意义。最后给出了主机设备通信优化和共享存储器的访存优化方案。测试表明,稀疏矩阵方程求解运算相比于获得了10.3至74.0范围的加速比。
其他文献
由于文本检索的巨大成功,目前主流的图像搜索引擎如Google、百度等对图像检索采用的还是基于文本关键词的方式,即根据图像周围的文本来判断一幅图像与查询的相关性。由于文本
软件技术的快速发展,促使其应用模式呈现出网络化、平台化和服务化的特点。分布式计算、并行计算、网格计算等计算机技术的不断成熟,推动了新型软件架构的不断革新。在这种背
随着企业数据的种类的扩展,面向不同数据类型的异构数据的集成访问成为新的发展方向。本文就面向一般关系型数据、空间数据、实时数据的数据集成访问中间件进行了研究,设计并实
近年来随着网络和多媒体技术的飞速发展,网络多媒体服务(如视频会议、视频点播,数据分发和网络游戏等)应用成为网络应用的大势所趋,如果应用传统通信方式,它们大都需要消耗很
三维点云模型是以离散采样点为基元的几何模型,是三维模型的一种表示方式。三维点云模型数据结构简单、存储空间紧凑,而且由于不需要存储和处理复杂的拓扑信息,非常适于表示
集群系统(cluster)凭着其高可靠性、高可扩展性和高性价比等优势成为并行计算结构中最受欢迎的模型之一。其中曙光4000A和KD60平台是两种具有代表性的高性能集群系统。并行编
数据库系统是用来组织、存储和管理数据的仓库,它在企业、部门乃至个人的日常生产生活等诸多领域都得到了广泛的应用。随着现代互联网的迅速发展,信息呈现爆炸式增长,数据库
在数字图像的获取过程中,不可避免的要受到诸多因素的影响,导致图像质量达不到应用要求。由于受到硬件工艺的限制,如何采用软件的方法提高图像的分辨率受到很多研究者的注意。以
随着大规模互联网应用的高速发展,给存储系统的可扩展性提出了更高的要求,键值数据库由于其简单高效的数据模型在可扩展性方面较传统的数据库系统有很大的优势。另一方面,随
近年来,在计算机科学领域中,与本体相关的研究越来越多。科学家和学者已经构建了各种各样的本体,但尚未构建社会群体角色本体。本课题的研究内容就是如何构建社会群体角色本体。