高性能计算集群系统的运行与管理

来源 :课程教育研究·新教师教学 | 被引量 : 0次 | 上传用户:Fish_FF1314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:武汉大学水资源与水电工程科学国家重点实验室建立了以科学计算为基础的高性能计算集群系统。高性能计算集群系统是一种投入较大、设备更新速度较快的大型仪器设备系统。如何进行高效运行和可持续维护管理,是一个值得探索的问题。本文对实验室进行高性能计算集群系统的建设、运行、安全和维护管理等方面的经验与特点进行介绍。
  关键词:高性能计算;高效运行;安全管理;维护管理
  【中图分类号】O4-39
  武汉大学水资源与水电工程科学国家重點实验室(以下简称“实验室”), 于2009 年成立了高性能计算中心,配备了HP刀片系统,理论计算峰值大于1万亿次浮点运算/秒,大大改善实验室和水利水电学院从事大型数值模拟计算的硬件条件。为了更好地为更多的用户服务,如何高效利用和有效管理这个系统就至关重要。
  1.系统介绍
  高性能计算集群主要用于处理复杂的计算问题,应用在需要大规模科学计算的环境中。高性能计算集群上运行的应用程序一般使用并行算法,把一个大的普通问题根据一定的规则分为许多小的子问题,在集群内的不同节点上进行计算,而这些小问题的处理结果,经过处理可合并为原问题的最终结果。由于这些小问题的计算一般是可以并行完成的,从而可以缩短问题的处理时间。
  高性能计算集群在计算过程中,各节点是协同工作的,它们分别处理大问题的一部分,并在处理中根据需要进行数据交换,各节点的处理结果都是最终结果的一部分。高性能计算集群的处理能力与集群的规模成正比,是集群内各节点处理能力之和。
  1.1硬件配置
  高性能计算机集群采用机架式,可动态扩展。现有节点18个,其中14个计算节点,2个管理节点,2个I/O节点,1个存储阵列。此外包括:机柜、供电系统、布线系统、散热系统,主控制台,KVM等。
  图1 系统结构图
  计算节点:HP BL460c G6 CTO Blade
  CPU:Intel Xeon E5530四核64位处理器,2.4GHz×2颗
  内存:16G
  硬盘:146GB
  网络:InfiniBand网卡
  管理节点:HP DL380R06 CTO Chassis
  存储节点:HP DL380R06 CTO Chassis
  存储阵列:EVA4400--Hard Disk
  高速光纤硬盘: 4TB
  SATA硬盘: 8TB
  1.2软件配置
  操作系统:Redhat Enterprise Linux 5
  作业调度系统:Sun SGE
  编译器: Intel C++、Fortran等,GNU系列
  通用数学库: LAPACK和ScaLAPACK,包括BLAS、PBLAS、BLACS等基本线性代数库函数、并行库函数和通信库函数
  并行环境: Infiniband MPI并行环境(MPICH1/2)
  应用软件:目前安装Fluent、Abaqus和Ansys等软件
  1.3高性能计算集群的特点
  根据以上配置的硬件设备和软件环境,实验室建立的高性能计算集群具有以下特点:
  (1)高可用性。本身互为冗余节点,能够为用户提供不间断的服务,由于系统中包括了多个结点,当一个结点出现故障的时候,整个系统仍然能够继续为用户提供服务;
  (2)高可扩展性。在集群系统中可以动态地加入新的服务器和删除需要淘汰的服务器,从而能够最大限度地扩展系统以满足不断增长的应用的需要;
  (3)多用户和多任务。Linux系统是一个分时多任务环境,它可以同时做多个事情。Linux系统可以处理一个用户的多个同时的要求,并支持多个人同时活动。
  2.系统运行
  在CPU 的数目有限(可供计算的CPU共112个),而用户多的情况下, 如何利用现有的资源,合理地安排作业运行,使设备高效运行,对系统管理人员是一个严峻的挑战。根据近一年来的运行情况统计显示,共有近4千个程序在机器上运行过,发现了如下一些问题:
  (1)自编程序未在工作站或PC 机上进行预先试验性运行, 就匆忙提交到集群管理节点上,致使运算工作量大大加重,并且有些计算未得到任何有用结果。运行程序未经仔细检查,存在固有的错误, 导致长时间死循环运行或计算结果错误, 浪费了大量的CPU 时间。
  (2)提交作业的运算工作量太大,致使在集群上运行时间过长,并造成计算节点宕机,以致在没有得到任何有用结果情况下不得不中止运算。运算作业量过大,造成大量作业排队现象,很拥挤,也会致使运算效率相应降低。
  为了提高高性能计算集群的运行效率,缩短用户作业的时间,我们鼓励提交程序可靠、运算时间短或中等的作业,以提高有用研究成果的产出率。我们通过不断与用户的沟通和协调,制定了高性能计算集群的使用规范,其基本原则是:
  (1)限制每个用户只能同时运行二个作业,超过的作业将会自动处在排队状态。每个用户排队的作业数目不超过3个。
  (2)限制每个作业最多只能使用24个CPU,直至供计算112个CPU被占用完。其后提交的作业按时间先后处在排队状态。
  (3)鼓励提交运行时间短的作业。
  3.安全管理
  高性能计算集群系统是置于网络中的一台具有服务器功能,并能进行大型数值模拟计算的大型设备;按用户需求,此大型设备需保证常年7*24小时不间断运行。因此,我们高度重视它的网络安全和运行安全,并采取了一系列的措施。
  3.1网络安全
  系统的网络安全性首当其冲的就是用户账号安全。为了确保高性能计算集群系统的网络安全,申请使用本实验室高性能计算集群系统的用户需要遵守以下几点要求:
其他文献
2008年年初低温雨雪冰冻期间(包括4次过程),冷暖气团长期对峙是“低温雨雪冰冻”天气持续的主要原因;准静止锋稳定、少动,锋面较平缓;等θse经向和垂直向梯度不断加强;冷暖气
〔摘要〕 “思想”与“现实”的关系问题是历史唯物主义的基本主题。从解释学视角上看,思想与现实关系是解释对象与解释根据的关系。“思想”实质上是具有双重意义结构的“象征符号”,而作为“具体整体”的“现实”则是思想深层意义的根源。马克思对两者关系的分析实质上是以“现实”为根据对“思想”的解释,即通过分析思想植根其中的现实对立关系而对思想深层意义的揭示。相比于正统马克思主义和知识社会学,解释学的分析能更准
西宁市作为青海省省会城市,是全省的政治、经济、文化、交通中心,承载着全省近40%的人口,处于全省城镇化发展的核心区域.近年来,西宁市高度重视大气和水污染治理工作,先后组织
阳明山是台北北边近郊一个很有名也的确很秀丽的景区.这个区域二十多年前就被划为公园加以建设,是台湾北部的游览中心和避暑胜地之一.我们乘车蜿蜒而上,一路绿树蓊郁,幽静而
任何平凡的岗位都是展示各种才华的舞台.在本职岗位上恪尽职守、埋头苦干,是一种奉献,是一种真诚自愿的付出,是一种愉悦人心的获得;是一种纯洁高尚的精神,更是一种升华自我的
广播电视台实现远程监控是其改善管理的重要体现,我国电视台一直以来都靠人工发射来实现系统运转的,但是这种方式并不能有效地解决一些突发的问题,因此这就对广播电视的管理方式
小娜在马家营开了一间理发馆,招牌就四个字:小娜理发.rn马家营是真正的城市村庄,周围都已经开发,高楼大厦把这个小村子围成了一个孤岛.
为探究吕家坨井田地质构造格局,根据钻孔勘探资料,采用分形理论和趋势面分析方法,研究了井田7
波德里亚在《消费社会》一书中分析了消费的本质,引出了符号消费理论。在现代婚礼仪式中,人们通过符号建立差异,通过符号获得身份标注。而物质的极大丰盛并非在浪费中才有实际意
随着青海大学的快速发展,多媒体教学应用范围逐年增大,为了解青海大学多媒体教学现状,提高多媒体教学质量,在全校范围内开展深度调查研究,采用科学的方法分析相关数据并得出