基于GPU的稀疏矩阵向量乘和凸包算法研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:zhangtianyu66
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图形处理器(Graphics Processing Unit,GPU)在功能和性能上逐步增强,在浮点计算性能和存储带宽已远超CPU。如今GPU不只局限于传统的图形渲染功能,已成为一种流行的通用计算设备。自NVIDIA公司推出计算统一设备架构(Compute Unified Device Architecture,CUDA),基于CUDA的高性能并行计算已成为各领域的研究热点。本文从传统问题着手,选择典型算法,优化其在GPU上的执行效率。论文主要选择了稀疏矩阵向量乘法(Sparse Matrix-Vector Multiplication,SpMV)和平面点集凸包算法。SpMV常用于挖掘网络数据信息的算法中,对分析网络抗毁性、鲁棒性以及控制谣言传播有重要作用。稀疏矩阵的存储格式对SpMV的性能影响巨大,为了提升其运算性能,对稀疏矩阵存储格式的优化至关重要。凸包算法是计算几何的重要构成,在非图像领域它也广泛应用于信息安全系统。快速凸包算法(QuickHull)是一种典型的分治法,将分治法映射到GPU架构上还没有一般性的高效方法。针对上述问题,本文基于CUDA高性能计算平台,对GPU上的SpMV和凸包算法进行了改进和优化。论文基于分块行列存储(Blocked Row-Column,BRC),提出一种改进的数据结构,用于存储稀疏矩阵以便在GPU上准确高效计算。该存储格式通过一种二维分块策略和一个基于快速分段求和的GPU内核函数,极大减少了BRC格式在并行环境中的计算误差。采用多种真实世界矩阵数据,在GPU上评估该方法,对于SpMV和使用该操作的PageRank中,实验结果表明,本文提出的方法得到的SpMV结果比BRC格式更具有准确性和再现性,同时保持了良好的运算性能。论文基于一种针对现代GPU的并行分治法实现策略,提出一种改进的并行凸包算法,以实现对大规模点集的快速凸包构造。算法通过引入分段的概念,对最初分配的输入数据进行直接操作,并将其划分至不同的分段来执行分而治之的过程。通过设计分段划分和分段压缩这两种数据并行操作,提出基于GPU的并行QuickHull算法。基于几个广泛使用的基准数据集进行了丰富的实验,实验结果表明,与目前最先进的Qhull库相比,本文提出的方法在耗时上明显更少,充分利用了GPU的性能。
其他文献
本文在文献[1]和[2]的基础上,应用广义态方程计算了零压下NaCl晶体不同温度时的等温Anderson-Gr(?)neisen参量δ_T(T,0)的数值。讨论了绝热Anderson-Gr(?)neisen参量δ_S(T,0
随着我国社会经济和人们生活水平的不断提升,人们对房屋建筑的要求也变得越来越高,部分建设时间较长的房屋建筑虽然还具有它自身的使用功能,但对面日益变化的房屋建筑要求,许多房
在城市规划工作进行的过程当中,园林绿化工程施工及养护工作是一个复杂性比较强的工程项目,保证园林绿化工程质量不单单可以让城市环境得到改善,讲话空气,并对城市生态环境进行调
以碳纳米管(Carbon nanotubes,CNTs)为增强相制备铜基复合材料是使铜基导体同时实现高强度高导电性能的有效途径,但碳纳米管/铜复合材料制备过程中存在的增强体分散性差和界面结合强度弱两大问题影响复合材料高性能的实现。对碳纳米管进行表面氧化改性能改变碳纳米管的表面结构和反应活性,从而改善碳纳米管的分散性,增强碳纳米管与铜基体的界面结合,但与此同时,氧化过程会破坏碳纳米管的结构完整性,影
电动机无功功率的就地补偿装置,容量大小对电动机绕组有无危害性?
本文总结了歧化反应的有关内容,并对其中的某些问题作了较好的解释。最后,西文给出了歧化反应方程式的简捷配平方法。
本文以2003年10月、2013年12月高分辨率卫星影像为主要数据源,利用遥感(RS)和地理信息(GIS)技术,使用面向对象分类方法获取防城港西湾片区的景观数据,对该区域2003年至2013年10年间
我国西部地区浅埋煤层主要采用双巷布置留设宽煤柱(大于20m小于30m)护巷的方式,宽煤柱在保证安全回采的同时造成了煤炭资源的大量浪费,如何确定煤柱的合理宽度是亟需解决的问
本文研究d—维格点上的相关随机游动,得到了n步转移概率分布的特征函数及n步后粒子位置的均值、协方差的明显表达式,推导出过程的极限扩散方程,从而推广和部分推广了[2]、[6]