论文部分内容阅读
系统管理作为一个复杂的问题有许多值得深入研究的内容。在该领域存在各种如统计分析、数据挖掘、模式识别、反馈控制的研究方法,以期不断改进既有技术和方法,也有许多面对新协议、新功能的工作。这些都是从功能角度出发的研究。本文从体系结构角度出发,对系统管理这类特殊的分布式应用进行了分析,并提出体系结构上的改进。本文的主要贡献有:1.根据对现有机群系统管理软件的调研以及对曙光机群系统管理的个案研究,总结出机群系统管理软件体系结构的抽象模型,以及机群系统管理体系结构中的关键问题:CAR。CAR性质指在考虑机群受管资源之间的依赖关系情况下的一致性、原子性和可修复性问题。一个机群系统管理软件的体系结构所能提供的可管理性由它所解决的CAR程度决定,其中C是一致性,指受管资源之间的依赖关系所引起的操作一致性,A是原子性,指针对多个资源进行管理的时候必须满足的“all_or_reinitiated”条件,R是可修复性,指一个管理器从错误和故障中快速修复的能力。这三个条件均有强弱两级,强的性质考虑了资源之间的关系,而弱的性质则没有考虑。因此,任何机群系统管理软件体系结构的可管理性可以通过考察其满足CAR性质的程度来判断。2.为了解决CAR问题,需要对现有机群系统管理的体系结构进行改造。我们提出一种在机群系统管理体系结构中的标准化的管理器运行时结构——网程,网程集成了协同资源、同步资源、网程检查点和破坏性事务等四项技术,共同解决CAR问题:a.协同资源是机群范围的共享数据结构,网程(管理器)之间共享和交换数据可以通过协同资源进行。b.同步资源是在协同资源基础上实现的可以用来实现全局的互斥操作,为原子性的实现提供基础。c.网程破坏性事务为系统描述有依赖关系的资源组合提供了方法,并负责构造原子性的管理操作序列和部分失效的原子性故障处理。d.网程检查点使网程状态与运行分离,提高了网程的可修复性。3.本文实现了一个面向网程的机群系统管理平台,用以构造各种系统管理工具和应用,并对其进行性能和功能方面的评价。根据测试,该平台的功能都具有较好的性能。此外,我们采用网程的方式修改了曙光4000A系统管理软件包中的系统软件引导程序“控制中心”。该程序修改后代码量减少了19.1%,程序控制流程被简化,结构更加清晰,提高了代码的可读性。4.本文对网程这种标准化的管理器进行了可管理性的定性评价。网程中的破坏性