论文部分内容阅读
计算机集群系统的广泛应用对作业管理系统(或集群管理系统)产生了迫切地需求。国外的一些大型的研究机构和公司都将作业管理系统作为提高生产效率和资源利用率的一项重要的技术保证,并面向实际的需求进行了大量的研究和开发工作。但国内该领域的研究还没有取得大的突破和进展。 针对这种现状,作者对作业管理系统进行了较为详细地研究。本文详细地分析和阐述了以网络队列系统(NQS)为基础的作业管理系统的框架体系结构和实现方法。在作业管理系统中,负载平衡是影响系统并行性能的重要因素。如何合理地安排和调度作业,充分运用各结点的处理能力,缩短程序的响应时间,是必须解决的问题。作者在分析和阐述了诸多影响和制约作业管理系统效率的因素的基础上,提出了一种新的基于集群的作业管理系统的动态负载平衡算法:集中式动态负载平衡算法。它的基本思想是在对集群中结点负载情况进行评估的基础上,按照极端匹配的原则,使得负载在匹配的结点对之间流动,实现了结点负载的平滑再分布。通过模拟试验,证明该算法较为有效地改善了系统的性能。 另外,作者也对在作业管理系统中使用集群技术问题作了有效地探索,提出了相应的解决策略,建立了ARM(Active Recovery Manager)服务体系,提高了系统的可靠性、可扩充性和抗灾难性。