论文部分内容阅读
IT系统管理复杂性问题是目前IT业面临的最大挑战之一。该问题最明显的症状就是IT系统故障频发,对运营维护管理人员的技术要求越来越高,相应的运营管理成本也持续增加。软件工程对软件系统运营阶段的重视程度和研究深度明显不能满足需要,IT运营管理流程的标准化也不能降低系统管理复杂性。自主管理作为自治计算的核心技术,是应对上述挑战的主流研究方向,自修复是自主管理的一项关键功能,其主要思想是通过提高系统自动处理故障以及适应环境变化的能力,解决IT系统管理复杂性问题中“系统故障频发”这一最明显的症状。由于IT系统对企业运营的影响越来越大,“自修复”这一新兴研究领域已经成为一个很有前景的研究方向。本文对提高IT系统自修复能力的框架及其支持技术进行了研究: 提出基于过程模型的IT系统自修复框架(PMSF),作为解决和预防系统异常的管理技术框架。通过由定义、度量、关联以及改进四个阶段组成的过程改进循环,去实现IT系统在运营阶段面向异常的逻辑抽象、度量体系、关联模型以及改进方法,过程模型可有效提高系统的自修复能力。作为一个开放的技术框架,PMSF旨在通过发现并控制引发系统异常的关键少数影响因素,去指导系统改进以消除系统异常。这是一种标本兼治的异常管理方法,能在提高系统可靠性和服务质量的同时降低人工干预的需要,它的研究扩展了以软件开发为焦点的传统软件工程方法。本文实现两个能处理不同类别异常的具体过程模型,一个是处理随机性能异常的扩展统计过程控制模型,另一个是处理系统功能异常的功能点切片模型。 提出扩展统计过程控制模型(ESPC)指导随机性能异常的预防和自修复。ESPC改进了统计过程控制的度量体系,能根据系统负荷变化动态地调节判别性能异常的阈值,对性能数据进行动态分类;它引入“过程性能指数”,从统计意义上计算过程性能符合用户期望的程度,不同过程能根据该指数比较性能优劣。ESPC还建立了性能异常与影响因素间的关联模型,根据动态分类后的性能数据以及各影响因素的同步数据,自动确定引发性能异常的关键少数影响因素。ESPC能有效地从用户使用体验角度度量和分析性能,并发现性能管理所需要的领域知识,指导系统改进自动修复并预防性能异常。ESPC的两个应用案例分别实现网络代理服务和组合优化算法的性能异常自修复。 收集了21个应用系统长达三年多的改正性维护数据,在这些数据的基础上,对影响维护工作量的主要因素、系统功能异常的增长特征、功能异常的主要类别及解决途径三个方面进行实证研究。主要结果有:第一,维护工作量和变更数量、