论文部分内容阅读
随着计算机性能的不断提高和网络通讯技术的迅猛发展,应用需求日益朝着高性能、大规模、多样性、多功能的方向发展,要求将地理上分布的、异构的各种高性能计算资源、存储资源、数据资源和其它特殊资源通过高速网络连接起来,实现高性能联合计算,共同完成重大应用问题,即广域高性能的元计算技术,也称为网格计算技术。不同于一般传统的分布式计算,网格计算着重于大规模的资源共享、创新应用,并在一定情况下定位于高性能计算,已经成为一个重要领域。在网格计算环境中,资源是分散在各个不同地域和管理域中,由不同的组织拥有和操作,并且在使用策略和安全机制上各不相同,即不同站点可能会使用不同的局部资源管理系统。同时,很多应用需要同时使用多个站点上的资源,站点自治性和分配资源时可能出现的故障需要一种特殊机制来同时分配位于多个站点上的资源。因此,如何对网格计算环境中的资源进行管理是实现高性能联合计算,共同完成重大应用问题的关键。 资源管理是网格计算的核心问题,它包括资源的组织、定位、发现、调度、分配、确认、进程创建以及准备所需资源的其它活动。资源管理提供了管理的功能和概念,使集群能够被当作单一资源,系统管理员根据预先定义好的标准通过资源管理软件确保资源的合理分配和使用,以最终达到资源共享的目的。从为用户提供方便、高效的服务的角度来看,它与传统的分布式计算环境或集群计算环境下的资源管理系统类似,具备以下三种功能:作业管理、任务调度和资源管理,即用户通过作业管理功能向网格系统提交作业,为作业指定所需资源,删除作业并监测作业的运行状态;用户提交的作业由任务调度功能按照作业包含的各个任务的类型、所需资源、可用资源等情况安排运行日程和策略;资源管理功能确定并监测网格资源状况,收集作业运行时资源占用情况等信息。然而,由于网格系统的分布性、异构性和动态性,使得网格资源管理比分布式计算环境或集群计算环境下的资源管理更加复杂,不仅要支持跨组织或管理域的任务调度,实时监控资源和作业执行的状态,而且要维护局部的站点自治,提供相应的QoS支持。因此需要建立适应于网格这种复杂环境的特殊的资源管理系统模型,研究其特征及功能,为具体实现网格资源管理系统提供必要的指导,从而满足网格系统的用户服务需求和为网格系统其它服务组件提供支持。 由此可见,在资源管理中,面临的有唯一验证、授权、资源访问、资源发现以及资源调度等挑战。网格中常用的资源包括:处理能力、存储系统、目录、网格资源、分布式文件系统、分布式计算机池、计算机集群等。由于网格在逻辑上连接了属于不同的所有者或组织的多重资源,因而好的资源管理系统在最终网格是否成功