GALBC:基于GPU加速计算的格子Boltzmann方法软件

来源 :2014全国高性能计算学术年会 | 被引量 : 0次 | 上传用户:abc16900
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
GALBC是一款应用在CPU-GPU异构平台上基于格子Boltzmann模型开发的并行计算软件,可用于多相流、渗流分析等计算流体动力学(CFD)领域.格子Boltzmann方法(LBM)是在介观层面上研究流体特性的一种CFD方法,因其物理图像清楚、模型简单和数据局域,非常适合利用图形处理器(GPU)进行大规模并行计算.在自主软件GALBC中,基于统一计算设备架构(CUDA)编程模型重新设计了传统LBM算法,实现了在粒子弛豫过程中的每一时间点都将计算密集型任务交由GPU并行加速,而CPU只负责内存管理、发起GPU内核函数和数据分发、收集.在程序调优上,就提高GPU全局内存和共享内存的访存效率而言提出了一种优化方案,有效提升了原算法的并行效率.以二维Poiseuille流和顶盖驱动流为例,计算结果表明基于GPU加速计算LBM不仅可行而且高效,在NVIDIAGeForce GTS 450卡上获得的最高加速比超过110倍.
其他文献
本文提出一种基于云安全的便携云存储设备,具备自安全、自学习、自审计功能,能够有效规避非安全环境下对存储操作时发生的泄密等非安全事件.通过内置安全引擎能够实现基于HTML5浏览器和基于X-Client方式的硬加密访问;通过内置网络安全引擎以及高性能签名算法,能够实现高速网络安全访问以及安全云存储功能.同时应用一种适用于云存储安全的深度学习技术,可作为传统被动入侵防御技术重要补充技术手段,满足当前安全
我国国家级超级计算中心普遍面临应用不足、应用领域狭窄,投资巨大、运营开销昂贵的问题,通过对比国内外典型超算中心应用和运营机制,分析我国超算中心在应用推广和运营机制方面的问题,指出需要针对我国超算中心建设特点和应用需求,由政府主导,联合高校、科研机构和企业联合推动超级计算机应用,提高我国超级计算机应用水平,实现超算中心良性运营。
在用机器学习方法解决自然语言处理领域的问题,将词或符号表示成向量是一项基本工作.Google的开源工具word2vec利用深度学习模型得到的分布式词向量,能粗略表示词与词之间的距离,甚至词与词之间的向量运算能与语义对应,是近年来获得词向量的主流方法.在GPU上训练得到词向量,实现了CBOW和Skip_gram两种模型,每种模型又包含了层次Softmax和负取样两种算法.其中在层次Softmax算法
已有的相关方法和软件在解决表观遗传学领域中DNA甲基化状态预测问题时,存在不准确、速度慢、时空效率低等问题.针对该问题设计并研发了新的甲基化状态预测程序("Hint-Hunt").新程序通过对含有辅助定位信息的甲基化序列进行最优相似比对,实现了对DNA甲基化状态的分析与预测,能够精准地给出参考序列中每个位点的甲基化状态数据.同时程序还实现了甲基化状态的假阳性识别、阈值过滤、最优筛选和得分共享机制等
高效的动态任务调度和容错机制是高性能计算面临的挑战之一,多数已有的方法难以高效扩展到大规模环境.本文提出了基于N层排队理论的高可扩展动态任务调度模型,为程序员提供简洁的并行编程框架,有效降低了编程负担;使用泊松过程相关理论分析了任务申请的平均等待时间,通过给定的阈值进行决策分层;结合局部感知的轻量级降级模型,可有效降低大规模并行课题的容错开销,提高系统的可用性.Micro Benchmark在神威
针对肿瘤细胞测序数据的基因拷贝数变异检测是研究癌症相关基因变异的重要手段.高通量测序技术的迅速发展产生的海量测序数据,一方面推动了基因拷贝数变异检测算法的发展,另一方面带来了数据处理与存储等计算问题的挑战.本文提出了一种新的面向多核平台的基因拷贝数变异检测的并行算法,设计了一种基于序列数目等量的窗口划分与合并策略,并通过将计算过程划分为多个计算BIC值的计算任务实现了程序的并行化,在此基础上,通过
针对GPU集群系统,研究了AINV和SSOR-AI两类近似逆预条件的并行算法.采用多级k-路图划分方法,通过子图的内点和边界点识别方法以及稀疏矩阵的置换技术,提出了将稀疏矩阵转换为分块箭形矩阵的并行方法.基于所形成的分块箭形矩阵,结合块内稀疏矩阵近似逆串行、块间并行的策略给出了近似逆预条件的并行方法,实现了AINV和SSOR-AI并行算法,解决了AINV预条件难以并行的问题.基于CPU与GPU协同
Alltoall通信是对网络性能要求最高、扩展性最差的MPI集合操作之一,同时又作为核心通信模式广泛应用于诸多计算领域.而随着高性能计算机系统规模的急剧增大,能够降低成本并提高利用率的过载网络(oversubscribed network)设计成为大规模计算系统网络设计的趋势.过载网络给Alltoall通信带来更严峻的挑战,网络的过载特性不仅会导致链路的竞争,还易引发消息顺序错乱从而严重降低通信性
直线加速器中大规模带电粒子的追踪对高电流直线加速器的设计和优化至关重要.本文介绍了3维异构并行束流动力学模拟软件LOCUS3DG的开发现状,这是基于以前开发的并行束流模拟软件LOCUS3D.粒子按照一定比例同时分配到CPU和GPU中,并开发了一种有效的异构并行3维泊松方程求解器.在美国阿汞国家实验室的BGP超级计算机,中国科学院超算中心和国家超算天津中心的集群上对软件进行了详细的测试,并得到了测试
气象数值模式是天气预报和气候预测的基本工具和方法,随着技术的发展,模式分辨率有了大幅的提高.分辨率的提升带来了计算量呈指数倍的增大,然而气候气象预报的时效性对并行程序的设计与计算平台性能都提出了更高的要求.本文以气候模式T106为研究案例,以Intel Xeon PhiTM为实验平台,探索混合异构编程与优化的可行性,实现了CPU端MPI+MIC端OpenMP的混合异构编程,充分继承了原始代码的MP