Linux环境下集群系统的资源管理

来源 :电子世界 | 被引量 : 0次 | 上传用户:shibihu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】随着计算机网络的发展及大规模科学计算如气象预报、自动化处理较高单位等对服务器的性能要求越來越高,对计算机的性能提出了更高的要求:需要硬件有灵活的可扩展性,关键性的模块需要可靠的容错机制。计算机集群系统具有处理速度快、I/O吞吐量大,容错性好、可靠性高,而且还具有良好的可扩展能力等诸多优点,因此成为了当前的主流。本文叙述了集群系统的资源的管理和分配。
  【关键词】LINUX;集群系统;资源管理
  1.集群系统概述
  集群是一组通过高速网络互联的相互独立的计算机的集合,配以专门软件以单一系统的模式加以管理。在用户看来,它是运行在一系列自治处理单元上的普通系统,每个结点有各自物理内存空间并通过高速链路或者标准化网络连接,实现对同一任务的协同计算。当一个用户与集群相互作用时,集群就像是一个独立的服务器。和传统的高性能计算机技术相比,集群技术可以利用各档次的计算机作为节点,不仅系统造价低,还可以实现很高的运算速度,完成大运算量的计算,能够逐步满足当今日益增长的超大数据量的石油物探处理需求。系统保持了分布式客户机/服务器模式的开发性、可扩展性的优点,同时又具备了终端/主机模式的资源共享和集中易于管理的优点。相对集中的集群系统,降低了系统管理的成本,而且还提供了和大型服务器系统相媲美的处理能力。高可用和高性能是集群服务器系统的两个重要特性。
  2.集群系统(CLUSTER)的特点
  集群系统使由完整的计算机互联组成一个统一的计算机系统具有极高的性能价格比。它需要专有软件的支持,比如支持集群技术的操作系统或数据库等,硬件方面可以根据不同实际需求,采用现成的通用硬件设备或特殊应用的硬件设备。集群系统中可以动态地加入新的服务器和删除需要淘汰的服务器,具备很强的可扩展性,从而能够最大限度地扩展系统以满足不断增长的应用的需要;另外,要求集群系统具有可用性,即能够为用户提供不间断的服务,当系统中的一个结点出现故障的时候,整个系统仍然能够继续为用户提供服务。
  3.集群系统的分类
  集群系统可分为高可用性集群和高性能集群。高可用性集群的主要功能就是提供不间断的服务。高性能集群通过将多台机器连接起来同时处理复杂的计算问题,如模拟星球附近的磁场、预测龙卷风的出现、定位石油资源的储藏地等情况都需要对大量的数据进行处理。传统的处理方法是使用超级计算机来完成计算工作,但是超级计算机的价格比较昂贵,而且可用性和可扩展性不够强,因此集群成为了高性能计算领域瞩目的焦点。
  4.集群系统的资源管理
  系统资源是作业运行的基础,这些资源包括集群的硬件资源和软件资源,硬件资源是软件资源的基础。本系统是构建在操作系统上的,只对本系统所涉及的范围进行分析。计算节点资源的利用率是系统性能的重要指标,资源利用率越高说明系统处理作业的计算能力越大,集群中的资源的有效利用程度直接影响系统中的作业运行效率,所以必须对集群中的所有可用资源进行有效管理,从而为资源分配和作业调度提供决策依据。服务器与计算节点上都有一个资源对象管理进程,它们所管理的资源内容与范围是不同的。服务器对象管理进程对整个集群系统中所有计算资源进行统一管理,包含集群中所有的节点信息与作业信息。计算节点对象管理进程只对此节点上的计算资源进行管理,包含此节点上的资源信息与作业信息。
  调配硬件资源,合理分配给每个项目的每一个用户,一直是我们系统管理员的工作中的重要课题。某单位现拥有四套曙光集群和一套超微集群。全部运行在RedHat Server4.6/5.3之上,主要设备如表1所示。
  从系统组成角度说,集群系统是由多台计算机组成的超级计算机。但是从最终用户看来,集群系统是一台计算机,也就是说,集群系统的构成对用户是透明的。所以集群系统的管理的目的就是让集群系统象一台计算机一样利于管理和使用。
  工作中我们发现一些问题:
  (1)业务单位资料的运算处理通常伴随着大容量的数据存取,由于数据量非常的大,所以只能存储在一块共用的硬盘阵列上,并由专门的I/O节点来管理存储。当需要更多的计算节点来并行计算以提升运算速度的时候,由于同时对I/O节点进行数据读写访问,当I/O传输达到的上限,过多的访问申请反而会造成数据的拥堵。
  (2)由于盘阵的容量相对较大,通常分成不同的卷,而在外部用户来看,他们并不知道使用的卷具体位置在哪,所以会出现,一个盘阵由于划分了多个卷,每个卷存储多个项目的现象。
  (3)直接在I/O服务器上启动软件服务和工作窗口,并且调度其他计算节点并行作业;I/O服务器本身负荷就相当大,它要提供其他节点的数据读写访问和传输服务,不但要给自己读写数据,它所控制的子节点也需要对它所挂载的盘阵并行读写,反而造成拥堵。
  经过不断的摸索,我们总结出:
  (1)同一个项目中,最多不超过100个计算节点同时用来处理一个项目。
  (2)对于大盘阵最多只分三个卷,每个卷尽量只允许用在一个项目上,项目结束后,才重新分配给下次个项目。
  (3)每个处理员分配单独的登陆节点,用来启动软件界面,不增加软件服务器、数据库服务器、I/O存储服务器的额外负担。
  5.总结
  随着业务的不断发展,单个服务器已经逐渐不能满足用户的需求,而超级计算机的价格非常昂贵,相比之下,集群系统具有高性价比、高可用性、高扩展性的特点,因此逐渐成为了高性能计算的主流。集群系统是通过高速网络互连起来的一组计算机,它们作为一个整体为用户提供应用服务。
  在业务数据处理中,服务器与计算节点的故障都会给用户带来一定程度的损失,如果服务器停止工作会导致整个系统工作的瘫痪,节点发生故障也会对系统造成一定的影响。尤其是当系统中存在需要运行很长时间的大作业时,由于服务器或计算节点故障而导致作业的运行失败,会导致时间的浪费与系统效率的降低。为了保证系统持续、可靠地提供服务,集群系统的灾难恢复研究是非常重要的一部分内容。可以采用当前比较流行的双机备份方案,即采用两台服务器进行系统中数据的备份与恢复工作,从而保证为系统提供持续可靠的服务。
  参考文献
  [1]Alex Vrenios(美)著.马朝晖译.LINUX集群体系结构[M].机械工业出版社.
  [2]BarryWilkinson著.陆鑫达译.Parallel Programming [M].北京:机械工业出版社,2002,1.
  [3]James Turnbull,eter Liieverdink,Dennis Matotek(美)著.张铮,张勇,陈勇涛,刘春华,耿强译.Linux系统管理大全[M].人民邮电出版社,2010,12.
  [4]http://ccidnet.com/tech/hard/.
其他文献
目的:探讨SOX9基因在尿道下裂发病中的作用.方法:收集96例先天性尿道下裂患者外周静脉血,提取DNA,采用PCR扩增直接测序的方法检测SOX9基因全部外显子序列.结果:在实验组尿道
一、临床资料  男性患者,39岁,波音-737飞行员,总飞行时间9000 h.因间歇性右上腹部疼痛不适2年余,加重1周就诊.B超提示:胆囊颈部胆囊结石1枚(直径6 mm)、胆囊体前壁胆囊息肉(单发,直径4 mm)伴慢性胆囊炎(胆囊壁厚4 mm).于2006年3月8日入院.入院查体:腹平软,右上腹轻压痛,莫菲征阳性.入院诊断:胆囊结石;胆囊息肉;慢性胆囊炎.于2006年3月13日在全麻下行腹腔镜胆囊
目的 探讨疝环充填式无张力疝修补术在腹股沟嵌顿疝中的应用.方法 应用疝环充填式无张力疝修补术治疗腹股沟嵌顿疝患者32例,观察手术时间、伤口疼痛、并发症、复发率及术后下床活动时间和住院天数.结果:手术全部成功完成,平均手术时间90 min,术后出现切口疼痛5例、尿潴留2例、阴囊积液3例.平均住院6.8 d,随访3~24个月未见复发病例.结论 疝环充填式无张力疝修补术具有手术安全、创伤小、痛苦小、术后
目的:观察尼卡地平治疗慢性肾衰竭患者肾性高血压的疗效和安全性.方法:对113例慢性肾衰竭肾性高血压患者进行为期8周的尼卡地平治疗观察.尼卡地平起始剂量为40mg q12h,最大剂
患者,女,70岁,以大便次数增多6个月,粘液血便3个月为主诉入院.曾有呋喃唑酮(痢特灵)过敏史.体检:一般情况好,T36.4℃,BP150/80mmHg,心律失常,频发室性早博,肺部无明显异常.
目的:探讨骨盆牵引带持续牵引治疗腰椎间盘突出症的疗效.方法:治疗组32例腰椎间盘突出症患者应用床上骨盆牵引带牵引治疗,对照组22例患者应用微机控制自动牵引床牵引治疗.结
HIV耐药性检测是指导临床治疗及治疗失败后更换治疗方案的重要技术手段,目前国际上主要应用的HIV耐药性检测方法有基因型耐药检测及表型耐药检测两种.基因型耐药检测方法尽管以其简单、快速和花费较低的优点被广泛应用,但它也存在不足之处.基因型耐药检测面临的挑战并非难以获得数据,而是怎样来解释这些数据并应用于指导临床治疗.据报道已经发展了超过20种解释方法,但目前国际上被广泛应用于耐药基因型检测结果评价的
近年来靶向治疗、治疗性抗体、放射免疫治疗等新的治疗手段的应用,使肿瘤综合治疗的疗效进一步提高,患者的生活质量得到明显改善.针对恶性肿瘤变性坏死细胞的[131Ⅰ]-肿瘤细
目的:探讨 B 型超声波检查对处女膜闭锁的超声波诊断及临床价值.方法:对 9 例手术证实的处女膜闭锁患者的超声表现进行回顾性分析.结果:本组 9 例中,术前全部进行 B 型超声波
设计了一套能够控制激光枪击发、自动瞄准及报靶等功能的电子射击装置。该装置由激光枪、瞄准机构、胸环靶、弹着点检测电路、显示及报靶电路组成。采用20mw激光模块作为激光