论文部分内容阅读
分布式关键任务系统的异构性、复杂性和使用环境动态变化不可避免地导致了系统失效、任务偏离甚至中断运行、崩溃死机等现象发生,造成重大经济损失甚至是人员伤亡等严重后果,这也使得人工完成其管理和恢复、不间断地保持任务运行变得愈加困难。在此种背景下,以自我管理能力为核心研究目标的自律计算逐渐得到了广泛重视,并在多个领域有着深入研究与应用。自愈调控技术是自律计算基础性关键技术之一,面向分布式关键任务系统的自愈调控技术实现了关键任务系统的失效监控与预测、自愈调控策略生成以及关键任务调度等系统设计基础功能,对关键任务运行可靠性和可持续性都有着重要的保障作用。本文针对关键任务系统使命连续性需求,对分布式关键任务系统自愈调控关键技术以及应用展开研究。从自愈调控总体设计原则讨论入手,首先指出自愈调控总体设计中所需要考虑的基本原则,针对自愈调控设计流程给出综合评价指标体系;以此为基础提出自愈调控整体架构并详细阐述了架构设计理念和关键实现技术;围绕关键任务执行的形式化建模问题,采用状态π演算描述关键任务执行与切换语义,并对关键任务执行逻辑进行验证,为后续自愈调控关键技术研究提供了理论上的可行性和合理性保障。自愈调控策略动态生成是分布式关键任务系统自愈调控研究的核心内容。提出了基于策略的自愈调控模式,阐述了自愈调控策略的基本表述形式并给出了自愈调控策略动态管理中策略分类以及化简步骤;针对失效检测机制准确率不高且故障定位难的特点,提出基于部分可观察随机过程(Partially Observable Markov Decision Processes, POMDP)的自愈调控策略更新算法,采用近似迭代方法求解POMDP策略并给出了迭代收敛性的理论分析。仿真实验利用LANL(Los Alamos National Lab)失效数据中恢复策略效果进行统计,然后计算策略求解的迭代与收敛速度并比较了多种类型自愈策略的恢复效果。实验结果表明与固定策略相比,POMDP策略在不准确失效检测下迭代速度更快且恢复时间更短。自愈调控数据分析与预测是实现分布式关键任务系统失效自愈的必要条件。针对非线性相关失效数据所具有的高维、稀疏等特征,首先提出了非线性相关失效事件联合聚类算法,以互信息熵损失差作为度量标准并从理论上分析算法有限次迭代收敛性;然后针对数值型失效数据采用有监督局部线性嵌入算法进行数据降维,通过失效模式识别实现失效提前预判。实验首先比较了不同算法在失效数据集上的聚类效果和收敛速度,然后采集了故障态与正常态下系统状态指标数据并进行预测性能分析。实验结果表明,所提出的非线性相关失效数据分析方法能够有效聚类出失效数据对象,基于局部线性嵌入的失效预测结果可为主动恢复操作提供决策依据。关键任务自愈调度机制是分布式关键任务系统自愈调控设计与实现的重要保障。针对失效发生随机性以及关键任务运行连续性等特点,采用先调度,后优化的指导思想,提出了基于DAG任务重构迁移的关键任务调度方案。首先重新生成关联任务有向无环图(directed acyclic graph, DAG),提出DAG动态重构算法将关联任务转化为层次化DAG任务,然后计算关键任务迁移路径并给出可迁移任务死锁避免理论分析,将迁移任务提前调度到当前空闲资源运行,达到缩短任务执行时间的目的。仿真实验测试了三种故障注入类型下任务迁移方案与等待恢复方案的加速比执行性能,实验结果表明任务迁移方案在弹性负载与未知故障情况下具有较好的调度质量,为关键任务系统不间断运行提供合理可行的技术方案。