【摘 要】
:
高性能并行计算的唯一目的就是追求尽可能高的极限性能,这一尝试包括使用最先进的超级计算机,最快的并行算法,也包括选择更合适的编程模型与最大化程序性能的优化方法。现代网络支持RDMA以及PGAS语言,如UPC,支持远端CPU无意识的单边通信,这些特性促进了高效重叠通信与计算的优化,可以显著提高通信受限程序的性能。但是通常传统并行程序,主要是MPI程序,多使用大块通信和计算,这样重叠优化的空间很小,我们
【机 构】
:
中国科学院计算技术研究所 北京 100190 shanglei@ict.ac.cn 中国科学院计算
【出 处】
:
2008年全国高性能计算机学术年会
论文部分内容阅读
高性能并行计算的唯一目的就是追求尽可能高的极限性能,这一尝试包括使用最先进的超级计算机,最快的并行算法,也包括选择更合适的编程模型与最大化程序性能的优化方法。现代网络支持RDMA以及PGAS语言,如UPC,支持远端CPU无意识的单边通信,这些特性促进了高效重叠通信与计算的优化,可以显著提高通信受限程序的性能。但是通常传统并行程序,主要是MPI程序,多使用大块通信和计算,这样重叠优化的空间很小,我们通过把粗粒度的通信和计算分裂成细粒度来获得更好的重叠。本文在支持RDMA的Infiniband网络上使用UPC高效的单边通信来实现 重叠优化,针对带宽受限的NAS FT程序进行细粒度化,并尝试参数化细粒度版本寻找最优的粒度追求极限的优化性能。在曙光4000A系统上实验表明,相比粗粒度阻塞通信的UPC版本,最优粒度的重叠优化FT 版本在8处理器上A、B规模分别获得了48.75%和80.34%的性能加速。
其他文献
由傅-克酰基化反应得到1.4-双-(4-溴苯酰基)苯,以1,4-双-(4-溴苯酰基)苯和含有砜基的芳香二胺为单体,三(二亚苄基丙酮)二钯为催化剂,1.1-联萘-2.2-二苯膦(BINAP)为配体,通过钯催化的胺基化反应缩聚合成了含砜基聚亚胺亚胺酮酮(PIIKKS),Mn=62000、Mw=73500。其结构由核磁氢谱表征,表征结果与目标结构吻合良好。
二叉树模型是期权定价中常用的一种数值计算方法,但当计算精度要求比较高的时候,需要时间步长足够小,从而大大增加计算时间。本文从尽量减少通信开销的角度出发,提出一种期权定价的并行二叉树算法,并利用MPI消息传递接口进行了并行算法实现。分析和实验结果表明,对于具有较大问题规模的二叉树模型,能够较为有效地降低运行时间。
新LBM模型可以处理速度0.7马赫以下的可压缩流体问题,并且具有较好的数值稳定性。本文通过对三维流动问题的计算研究,证实了该新LBM方法的正确性,对计算程序并行性能深入研究的基础上,提出了基于cache的性能优化,经过程序性能测试证明该方法具有较好并行计算效率,并具有很好的可扩展性。
最近几年,生命科学、激光技术、微电子 技术都取得了重大进展,反观曾经高速飞跃的个人计算机,速度和效率都有停滞不前的的现象。本文结合生命科学和脑神经学对智能的产生的认识,用信息变换和传播的观点,提出一个崭新的仿生电脑的模型,并将仿生电脑硬件与冯·诺曼机器和人工神经网络模型作比较,也将生物智能产生的模式与软件编程的模式作比较,希望能在这基础上,发现新一代的高效能电脑发展的方向。
存储服务器是机群系统中的重要组成部分。随着硬件的发展,集中式的存储服务器可以提供更大的容量和带宽,可以同时为更多的高性能计算应用提供存储服务。然而,每个应用具有不同的负载特征,不同的存储部件以及本地文件系统也具有不同的特征,单一的存储模式难以为多样的I/O负载提供高效的存储。因此如何根据负载特征及存储部件的特征,将数据放置在合适的存储部件上成为一个关键问题。本文提出了并且在United-FS文件系
计算进入了多核时代,处理器的发展不再由更快的主频带动,而是依靠增加片上的多个核心。但是,对于高性能应用来说,多核平台的并行处理由于缺少适合的并行程序开发工具还处于初始阶段,对应用的优化需要对底层线程结构的深入了解和正确使用。本文从海量数据流应用的特点出发,提出了三级流水多线程模型,它的线程同步机制没有竞争,并且实现了不同特征数据流的差别服务。在遥感图像处理和骨干网网络入侵检测系统设计中,应用了海量
以双核、四核处理器为代表的多核计算平台正在逐步成为服务器的主流架构,在这种架构下传统的遥感图像并行处理算法的性能问题成为随之而来的问题。本文通过在多核服务器平台和单核架构的集群平台上对于并行卫星多光谱图像自动配准算法进行比较研究和性能测试,分析和阐述了多核对高性能计算的影响。
随着多核处理器的发展,片外访存带宽逐渐成为影响程序性能的主要因素。为了解决这个问题,很多研究工作通过提高cache利用率来降低程序执行过程中的片外访存数量。本文提出了一种任务调度算法来解决同时执行的多个独立任务竞争片外访存带宽的问题。该调度算法根据程序的访存阶段调度同时执行的多个独立任务,避免了“爆发式”的片外访存请求,改善了片外 访存带宽的利用率,提高了系统吞吐率。本文基于函数调用和循环体执行轨
在计算机安全领域,如何提高RSA算法的速度一直是研究的热点。近年来,随着多核技术与并行技术的发展,程序员可以通过使用MPI、OpenMP和Pthreads等并行技术来提高程序的效率。本文基于以上背景,在理解传统RSA算法原理的基础上,充分挖掘RSA算法的并行性,再结合MPI、OpenMP和Pthreads等并行技术和利用OpenSSL软件包,设计、实现了RSA并行算法,并取得了明显的效果。最后通过
局部一维显式离散格式是构造高维流体力学计算格式的常用计算方法。本文给出了一个并行自适应显式时间积分算法,用于实现局部一维显式离散格式的并行自适应计算。基于JASMIN框架,以局部一维FCT格式为例实现该算法,形成一个用于模拟多介质流体力学Richtmyer-Meshkov不稳定性的并行自适应数值模拟程序。数值实验表明,该程序具有很好的并行可扩展性。