超级计算环境容错机制研究

来源 :2012全国高性能计算学术年会 | 被引量 : 0次 | 上传用户：kyd1472

【摘要】

：

中科院超级计算环境是整合了包括总中心、分中心和所级中心计算资源的三层架构超级计算环境。为提升超级计算环境的可靠性，提供稳定可靠的计算服务，其容错机制的研究成为超级计算环境的一个研究重点。本文在对容错基本思想及各类计算机容错技术进行充分调研的基础上，提出一种适用于超级计算环境的容错框架，依据该框架给出了不同层次的容错方案，并对不同层次的容错开销进行了分析和比较，验证不同层次容错方案对应用程序带来的影

【作者】

：

Zhao Yi 赵毅 Cao Zongyan 曹宗雁 Zhu Peng 朱鹏 Chi Xuebin 迟学斌

【机构】

：

Super Computing Center, Computer Network Information Center, Chinese Academy of Sciences, Beijing 10

【出处】

：

2012全国高性能计算学术年会

【发表日期】

：

2012年11期

【关键词】

：

超级计算环境容错技术框架结构容错开销

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

基于大型场景的高精度成像并行光线追踪算法

光线跟踪(RayTracing)，也称为光迹追踪，是计算机图形学的核心算法之一，用于从三维场景生成逼真的二维图像.追踪光线是计算密集型操作，同时二维图像的每个像素需要投射一条甚至多条光线与场景求交，导致光线追踪计算量大效率低.对于大型场景的高精度成像问题情况变得更加糟糕.本文针对大型场景的高精度光线追踪成像耗时大效率低的问题，提出了一种分布式并行渲染的光线追踪算法.在32个CPU核上最高取得了30

会议

光线追踪算法高精度成像并行计算分布式计算

基于HBase的并行BSF方法

NoSQL数据库作为下一代巨型数据的存储模式，在科学计算和商业计算领域均发挥着重要作用，受到当前学术界和企业界的广泛关注，本文提出一种新的基于NoSQL数据库HBase的并行求取最短路径树的方法，首先利用Watts-Strogatz模型完成对巨型网络的数学建模，这种建模方式使得网络模型具有一定的聚类效果：其次利用HBase最近发布的coprocessor对并行BSF方法的简化和改进，简化并行BFS

会议

NoSQL数据库并行广度算法最短路径运算效率建模分析

云计算中基于Session和内容等级的数据库请求分类算法

云计算是当今世界IT行业的研究热点，在云计算实例中存在各种各样的用户对于数据库的请求，并且这些请求是海量的，如果不对这些数据库请求进行合理的分类，必然会对系统的性能造成很大的影响，如何对这些请求进行分类，以达到Web QoS的标准，是云计算研究的一大难点和关键点。原来基于先来先服务的请求模式，不仅不能满足客户优先级的要求，不能达到利益的最大化，而且不能使得服务资源得到充分利用。因此，本研究提出了基

会议

云计算数据库请求分类算法内容等级

一种有效的检测Ad-hoc同步的方法

Ad-hoc同步在多线程程序中非常常见。和phtread 库中的正规同步语句不同( 比如pthread_cond_wait),Ad-hoc 同步会隐含地引入happen-before 关系。对于很多错误检测工具来说,这种隐含的happen-before 关系难以被检测,正是这个问题影响着这些错误检测软件的正确性。在本文中提出一种有效地检测ad-hoc 同步的方法,此方法包含编译时分析和运行时分析两

会议

并行程序ad-hoc同步错误检测程序推理

三维叠前随机噪声衰减预测算子计算的GPU并行算法初探

应用GPU通用高性能编程技术设计了一种加速三维叠前随机噪声衰减(以下简称三维叠前RNA)预测算子计算的并行算法。三维叠前RNA是地震资料数据处理的常用技术，能有效提高三维叠前数据的信噪比，去噪效果明显，然而其巨大的计算量，成为工业生产的瓶颈。本文首先分析并定位了三维叠前RNA计算的热点为预测算子计算，然后描述了串行预测算子计算算法及该算法的GPU并行化可行性分析，最后利用CUDA技术设计了基于GP

会议

地震资料数据处理图形处理器并行算法三维叠前随机噪声衰减预测算子计算

BLAS子程序xROT在蓝色基因/Q超级计算机上的实现与优化

BLAS 是科学计算中最基础的数学库之一，广泛应用在HPC 领域.IBM 公司提供的针对IBM 硬件平台进行优化的工程科学子程序库(ESSL)，包括了BLAS 数学库.本文具体介绍ESSL 中BLAS 库子程序xROT 在IBM 蓝色基因/Q 平台上的实现和优化.本文介绍的优化技术对其它平台上的数学库优化也会有借鉴作用.

会议

下一代计算机数学库性能分析

FCA算法加速IBM Platform MPI的性能测试和分析

MPI是高性能计算领域内的重要标准之一,MPI应用程序的性能通常取决于其MPI集合通信的性能,FCA(Fabric Collective Accelerator)是加速集合通信的一种新方法。本文通过高性能计算环境测试主要分析了FCA共享内存和非共享内存机制对IBM Platform MPI加速效果,FCA的原理以及IBM Platform MPI和FCA的集成,同时也为在高性能计算领域应用FCA提

会议

并行程序集合通信性能测试高性能计算

基于InfiniBand网络的消息可扩展技术研究

InfiniBand是目前HPC系统互连的主流网络之一，其提供的可靠连接传输服务因为支持RDMA、原子操作等功能而被广泛应用于MPI等并行应用编程模型。但是支撑可靠连接所需的消息队列及缓冲区开销往往会随着并行规模的扩大急剧增加，从而制约了应用规模的扩大。为了解决这种内存开销带来的消息可扩展性问题，本文先从InfiniBand传输优化方面介绍了共享接收队列和扩展可靠连接技术，然后基于并行通信模型提出

会议

计算机网络信息共享可扩展技术共享接收队列处理器

面向交叉杆阵列的忆阻器逻辑运算操作并行化设计

忆阻器是一种可以记忆流经其电荷的无源非线性电阻，在众多领域有着巨大的应用潜力，当前其最直接的用途是作为数据存储的介质，同时它还能用于逻辑操作。本文通过在已有的忆阻器状态逻辑计算方式的基础上，根据通常采用交叉杆阵列结构设计了该逻辑计算方式的并行化，并分析了其进一步扩展的可能性和需要在存储数据结构上的改进，实验结果验证了本文提出的状态逻辑运算并行化的有效性和可行性。

会议

忆阻器状态逻辑能力并行化设计交叉杆阵列

动态网格的DSMC方法在GPU上的并行

直接模拟蒙特卡罗方法(Direct Simulation Monte Carlo,DSMC)是稀薄气体动力学领域的重要工具。然而,DSMC方法有两个比较主要的缺点：一是复杂的网格处理,另一个是庞大的计算量。使用动态网格的DSMC方法可以根据流场信息,动态生成自适应的碰撞网格,能有效解决前一个缺点：针对后一个缺点,本文则基于动态网格的DSMC方法,使用CUDA编写并行程序,将其移植到GPU上以减少计

会议

图形处理器并行模拟动态网格直接模拟蒙特卡罗方法

超级计算环境容错机制研究

与本文相关的学术论文