基于SAMRAI的并行AMR-FDTD求解方法

来源 :2010年全国高性能计算学术年会(HPC china2010) | 被引量 : 0次 | 上传用户：linuxcici

【摘要】

：

【作者】

：

张文李军李晓梅

【机构】

：

装备指挥技术学院信息装备系北京 101416

【出处】

：

2010年全国高性能计算学术年会(HPC china2010)

【发表日期】

：

2010年12期

【关键词】

：

并行AMR-FDTD 算法 SAMRAI 层积分器求解器性能分析

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　AMR-FDTD 算法将AMR 方法与FDTD 方法相结合,仅在电磁场能量梯度较大区域细化网格,通过网格细化或粗化动态调整计算资源,计算效率高.针对大规模电磁计算,基于SAMRAI,提出了一种新的AMR-FDTD 算法的并行求解方法.该方法基于分布式块结构的多级自适应网格,采用局部时间细化,以网格单元为最小计算单位,以网格块为数据分布和负载平衡的最小单位.通过将多级自适应网格中各网格层上的网格块按负载平衡策略分配到各个处理器上,实现对所求解问题的并行求解.基于SAMRAI,通过设计和实现新的并行AMR-FDTD 层积分器和并行AMR-FDTD 求解器,结合SAMRAI的时间细化积分器,实现了该方法.测试结果表明：该方法求解结果与商业软件XFDTD的计算结果一致,而且求解问题规模越大,该方法获得的加速比越好,具有较好的可扩展性.利用128 个CPU 核求解网格分辨率为512×512×512的问题规模时,加速比约为79.8,并行效率约为60％.

其他文献

提升GPU威力

随着图形处理单元（GPU）作为通用的计算单元，越来越多的客户采用基于GPU的集群来运行科学和工程应用。它允许用户使用一个异构计算模型，在程序的顺序部分在CPU 上运行而计算密集的部分在GPU 上运行。通过GPU 处理的大规模并行计算，相对于传统的基于CPU的计算模式，用户可以提高应用程序百分之四十的速度。本文档解释了，如何用PBS Professional（业界认可的高性能计算工作负载管理解决方案

会议

GPUPBS Professional高性能计算作业载荷

一种新的国产高性能微处理器上的设备虚拟化模型设计与实现

降低设备虚拟化带来的性能损失是国内外虚拟化研究的热点之一。基于国产高性能微处理器，本文设计了一种新的“设备直接访问”虚拟化模型实现，并以网卡为例构建了原型系统。实测数据表明客户操作系统访问物理设备的性能与原始设备访问相比仅损失1-4％。该模型在高性能计算等领域具有优势。

会议

直接访问模型客户操作系统设备设备虚拟化高性能

Web服务组合中基于信任集合的服务调度

网络中各种虚假或恶意欺骗的服务节点常导致用户很难快速获得高质量的组合服务，因此仅从性能角度研究Web服务组合存在片面性。针对当前服务组合中信任机制被忽略的缺陷，提出了一种基于信任服务生成树的服务组织方法，将服务提供者与服务请求的交互行为经演化后形成信任关系，使主体间可信程度达到相应级别，形成对外提供相似服务功能的服务集合，将恶意、虚假的服务排除在信任生成树之外，使服务组合在可信场景中进行；在

会议

服务组合可信演化信任生成树信息熵服务调度

IB-LBM圆柱绕流的CUDA加速实现

为了提高计算流体领域中复杂流动现象模拟计算的高效性和准确性,充分利用GPU的高峰值浮点计算性能和高存储器带宽,提出一种基于CUDA 架构的immersed boundary – lattice Boltzmann method (IB-LBM)的模拟算法.借助GPU 高度并行化,多线程特性,为每个网格分配一个线程,使多条线程并行计算.在合理利用CUDA 存储层次架构中常量内存和纹理内存的同时,恰

会议

CUDAimmersed boundarylattice Boltzmann methodGPU并行计算圆柱绕流

天气组网雷达定量估测降水程序在多核平台上的并行化

国家气象局天气组网雷达定量估测降水系统实现了组网雷达基本反射率和组网估测降水两类产品的处理和显示功能.本文综合使用Win32多线程和OpenMP 两种技术对该程序在Intel 四核处理器平台上进行了并行化.该程序主要由单站处理和组网处理两部分组成.由于计算资源的限制，并行后的单站处理程序只有大约15％的性能提升，而组网处理程序则可以达到近似线性的性能提升.通过调整计算负载，并行化版本的加速

会议

并行编程OpenMPWin32多线程天气组网雷达多核平台

并行FFT性能分析

在vs2005 环境下,从程序的运行时间,通讯开销两方面来分别比较基于FFTW 库、CUFFT 库和MPI 三种方式实现FFT的差异,试验数据是四组二维数组。通过测试结果说明,在FFT 应用领域,并行计算是FFTW 计算速度的30-80 倍,在大数据运算方面,GPU的计算速度略优于MPI,而且GPU的通信开销要少于基于MPI的并行计算。

会议

快速傅里叶变换CUDAFFTWMPI通信开销

三维位错动力学并行算法与程序研制

为研究极端条件下金属材料的性能，在JASMIN 框架上研制了三维并行位错动力学程序PDD3D.它集成了离散位错动力学模拟的物理方案和数值算法.通过设计实现高效的分布式数据结构、可扩展的快速多极子解法器以及基于影像区的拓扑操作通信方式，该程序获得了较高的性能和较好的可扩展性.它在1024 个处理器上模拟包含3 千万条位错线的物理模型获得了81％的并行效率.

会议

并行计算位错动力学粒子模拟快速多极子JASMIN 框架

云实验室:虚拟化技术在教育领域的新应用

云计算的概念早已成为信息技术领域的热门话题。一些商业巨头都纷纷宣称应用它们在云计算技术上的新型系统和架构，不仅能够为用户提供方便简洁的服务，而且可以大大节约企业成本。那云计算在商业上的优势是否可以同样应用到教育领域当中？准对这问题，本文提出了一个新的概念：云实验室。本文着重讨论了虚拟化技术在教育机构的一种新运用：云实验室。我们描述了云实验室的基本特点，分析了与传统实验室相比的优势，并设计出了

会议

云实验室云计算基础设施即服务虚拟化技术aaS

行星流体动力学大规模并行模拟及分析

主要介绍了行星流体动力学大规模并行模拟中病态压力方程的预条件子和迭代算法的选取,并根据强弱可扩展性的概念,对弱可扩展性的实验结果进行了分析。具体分析了在维持每核平均的浮点操作次数基本不变的情况下,倍增处理器规模时,程序运行时间,MPI 消息传递的数量和大小对弱可扩展性的影响。

会议

预条件迭代弱可扩展性曙光500A深腾700

超级计算机的多模式监控策略

运行状态的实时监控是对超级计算机进行高效管理的基础.目前的状态监控都是作为作业调度及资源管理的一个子系统，仅从软件监控的角度提供诸如节点、网络、IO 等部件的负载信息，缺乏更深层次的状态数据.而随系统规模的扩大，系统包含的存储、通信、计算、散热、电源、监控等部件的数量急剧上升，由此而来的系统稳定性问题需要多层次、更加全面的状态监控方法，以实现在线故障诊断、失效预测能力.为了满足这种需求，结

会议

超级计算机多模式监控故障模式故障诊断失效预测

基于SAMRAI的并行AMR-FDTD求解方法

与本文相关的学术论文