高效并行的Kohn-Sham方程求解器

来源 :2013全国高性能计算学术年会 | 被引量 : 0次 | 上传用户:freesown
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高效并行的Kotm-Sham方程求解器是支撑大规模第一性原理材料模拟的核心,流行的第一性原理商用软件难以适应国产高性能计算机的发展。对此,本文基于JASMIN框架自主研制了Kotm-Sham方程并行求解器。求解器采用PAW赝势平面波方法,包含两项关键技术;倒空间多重网格方法、“k点/轨道/网格”三级并行算法。前者在保证精度的同时显著节省了计算与存储开销;后者充分挖掘了求解Kotm Sbum特征值方程的并行度。通过计算一些典型体系的基态性质验证求解器的正确性,以求解216个重金属原子的Kotm-Sham方程为例,在国产高性能计算机上测试了求解器的并行性能。本文的求解器在7680个处理器核上用时不到6分钟,获得了56%的并行效率,在国产高性能计算机上的性能明显优于购买的商用软件VASP(5.2发布版).
其他文献
高性能计算机群具有单一系统和分布式的双重特点,也对机群的安全提出了新的挑战.本文根据高性能计算机群的安全现状和需求,提出了一种适用于高性能计算机群的分布式强制访问控制模型,并设计了一个基于现有的单节点强制访问控制系统SELinux,实现了高性能计算机群访问控制系统框架,并搭建了一个原型系统.最后.论文对高性能计算机群强制访问控制技术的可行性进行了分析和验证.
大数据时代的来临,使得内存系统越来越成为制约系统整体性能的瓶颈,如何利用访存序列分析程序的访存特征已经成为内存系统结果研究的热点.针对完整访存序列数据量过大的问题,需要一种快速准确的访存特征分析方法.本文提出一种基于聚类抽样的访存特征分析方法EMAT(Exti-acting representativeMelnoryAccessTrace).在EMAT中,使用由体系结构相关性能指标构成的基本性能计
以千万亿次(1015Flop/s)超级计算机的出现为标志,数值模拟已经进入一个全新的时代——一个可以使用数万至数十万个处理器核心进行超大规模并行计算的时代petaPar粒子模拟程序面向千万亿次级计算.在统一框架下实现两种广受关注的粒子模拟算法:光滑粒子流体动力学(SPH)和物质点法(MPM)。支持纯MPI和MPI+pThread混合并行两种编程模型。在Titan(2012年11月Top500第一)
基于平面波的第一原理计算方法是目前材料科学中最常用的.但传统的CPU并行计算已遇到可扩展性瓶颈,无法改善其求解的绝对速度.本文将系统地介绍利用GPU加速技术开发的大规模第一原理材料计算软件:Ultra—Mat.这一软件对第一原理平面波算法进行了系统的算法设计和软件实现:1)通过改变传统FFT并行方案,实现了快速傅里叶变换的GPU局部操作;2)设计了基于数据压缩的混合精度算法,显著减少了电子结构计算
高能物理是典型的高性能计算的应用,对CPU计算能力要求很高,并且CPU的利用率高低直接影响高能物理的计算效率.虚拟化技术在实现资源共享和资源高利用率方面表现出很大的优势.本文基于KVM(Kemel—basedvirtuallilachine)虚拟机进行性能测试和性能优化.首先通过对KVM虚拟机从处理器、磁盘10和网络10等参数进行测试,给出虚拟机和物理机的性能差异和定量分析,然后从KVM虚拟机架构
Kmeans算法是典型的聚类算法,是已知数据划分和分组处理的重要方法.在图像处理、机器学习、生物学有着广泛的应用.随着数据规模的不断变大,对Kmeans算法的性能提出了越来越高的要求.本文在充分考虑不同硬件平台硬件体系结构差异的基础上,系统研究了在OpenCL框架下Kmeans算法在GPU和APu平台上的高效实现方式.并使用含有多次全局同步的迭代算法在GPU中的实现、冗余计算减少全局同步次数、线程
OpenACC is a programming standard designed to simplify heterogeneous parallel programming by using direc- rives Since OpenACC can generate OpenCL and CUDA code lneanwhile running OpenCL on Intel Knigh
针对基于二阶多节点多面体网格的表面重建过程中存在的准确拓扑及绘制、传输代价等问题.提出了一种基于关键特征控制的表面重建技术。本文研究并分析了二阶多节点多面体单元等参插值函数的性质特征,在网格单元棱边插值计算曲面轮廓点,在网格表面及体内提取曲面的几何特征关键点,根据三关插值关键点间的逻辑关系制定了令拓扑准确唯一的面片三角化规则及修复策略,设计了基于关键点的三角面片压缩索引结构。实验结果证明,该方法可
基因组数据的快速增长,为群体遗传学研究积累大量第一手的宝贵信息,同时也对如何快速处理这些信息提出巨大的挑战.本文研究了一种新型群体变异检测方法中的动态规划迭代算法,首先将其转化为一系列的矩阵乘法,利用结合律发掘了并行性,接着设计了面向GPU架构的高效实现,与原先的CPU版本相比速度提升超过两百倍;在此基础上,通过MPI实现数据并行计算,利用天河一号超级计算机的多个GPU计算节点获得了进一步加速.本
本文重点介绍对应用与图形绘制的力导引算法的加速.首先使用OpenMP进行多线程并行化,得到一个并行的版本,可以从多核或众核平台中受益.然后,通过编译器自动使用SIMD(单指令多数据)指令,并进一步手动优化向量化.对程序在OpenMP线程和问题规模的不同组合条件下分别在CPU和IntelXeonphi(或者称为MIC)上进行数值实验.数值试验表明:经过优化后的算法比原始算法具有更高的性能.最后,总结