论文部分内容阅读
计算机和网络通信技术的迅猛发展、Internet技术的兴起和广泛应用,有力地促进了网络环境下计算机技术在金融业和其它科技领域应用的研究,并迅速朝着高性能、多样性、多功能发展。许多大规模科学计算或者企业的计算不仅仅需要一台工作站或者PC机,更迫切需要的是由多种机器组成、多个系统合作、多个科学仪器设备相连的网络虚拟超级计算机。这些应用要求将地理上分布、系统上异构的多种计算资源通过高速网络连接起来,共同完成计算问题;另一方面,各个企业或公司拥有的大量PC机及个人工作站却由各个使用者独占。由于每个使用者有自己的特点,就必然会造成某些时间段内,一些人因计算任务大使资源过载,而另一些人则因为任务少使一些资源闲置。这就是所谓的“资源饥饿”问题。 基于集群技术的作业管理系统就是为了解决这些问题而提出来的。它的目标在于将地理上分布、异构、自治的各种工作站、PC机和专用设备通过网络连接起来,建立有效的分布资源管理模式,形成一种高吞吐量和高性能的分布式计算环境。 我们的研发项目始于1998年,其目标是研制一个实用且具有自主产权的基于集群技术的作业管理系统CJobCenter。该系统独创性地使用了工作组集群和负载集群,并能支持在工作组集群上的高可用性。系统采用集中和分散资源管理技术,将资源合理、有效地调配给每一个需求资源的作业,同时也能保证资源拥有者对自己资源的绝对控制。本文反映了作者自1998年以来的主要研究成果,包括以下内容: 一、提出了基于集群技术的作业管理系统的资源管理结构,给出了实现资源管理的七个组成部分:关联作业、内部任务预调度器、资源请求部分、资源交易、资源提供、工作组集群资源管理器和网络队列系统。每部分都有其特殊的功能,各部分之间互相衔接。 二、在用户与CJobCenter系统的接口方面,CJobCenter允许用户根据各个作业之间的依赖关系形成一个关联作业,一个关联作业中可以嵌套另一个关联作业。当关联作业的嵌套层数较多时,可能会导致作业运行中相互等待而浪费资源和降低作业执行效率。为了防止上述问题,作者提出了一种拟序方法对关联作业的正确性进行检查,同时根据作业之间的依赖性和优先原则得到了一个优化的执 西北工业大学博士学位论文一行序列,为作业分散提供基础。 三、提出了工作组集群模型,并在这个模型的基础上,采用了灵活的R历和事件驱动来满足批处理作业提交过程,同时为了优化资源的共享性,防止节点之间的忙闲不均现象,提高系统的性能,设计并实现了关联作业在工作组集群中的分散算法。 四、CJobCenter系统采用交易模型,它提供了简单的单一系统映像以支持异构计算节点之间的透明操作和多个工作组集群之间的资源共享。资源共享甚至可以跨越广域网(WAN入通过交易模型,用户可以访问各种类型的计算资源,从而得到更好的性能和更强的计算能力,并可大幅度提高系统的吞吐量。 五、由于系统故障或其它原因造成的停止工作,往往会给用户造成巨大的损失。CJobCenter系统针对这个问题实现了高可用性。集群中只要有一个节点能正常运行,作业就可以完成,因为服务可以在各个节点之间迁移。即使整个网络瘫痪,作业也不会丢失,因为我们使用了检测点技术和作业事件在指定文件中的保存技术。当有一个节点故障发生时,就会在其它节点上生成一个虚拟的环境,作业也就被迁移到这个虚拟环境上运行,故障节点恢复后,作业又自动返回到原节点继续运行。 本文所涉及的研究课题是西北工业大学软件工程中心的一个国际合作项目,采用分阶段实施的方式,目前已经历了三个阶段。第一阶段和第二阶段己经完成,并通过外方验收。第三阶段旨在实现实用化的WEB环境并研究新的工作组集群之间的资源共享技术,同时探索在 imode手机上的实现途径,己于 200年 2月完成详细设计,部分功能已经完成。