论文部分内容阅读
软件老化现象,是由于软件的错误随着时间和负载而累积,并最终导致了系统的不可用。在对可靠性和可用性要求较高的系统里,软件的老化会使系统失效从而产生较大的损失。研究表明软件的多样性设计不是解决这类错误的有效方法。软件失效具有暂时性的特质,软件的设计错误能引起暂时性的软件失效,软件在操作系统环境中运行时由于错误的累积而进入不可接受的错误状态。因此,系统的重启,作为软件运行环境更新的一种策略,作为一种有效的、成本开销较低的软件性能恢复技术被提了出来。其基本的思想就是改变运行进程的操作环境从而达到避免软件失效的发生。这种主动性能恢复的思想就是自恢复理论。 本文就软件自恢复理论展开研究,主要研究内容和工作如下: 首先建立了以半马尔可夫过程为基础的多级(系统级、应用级和进程级)分析模型来考虑自恢复理论。分析以半马尔可夫过程建立的多级模型,得到在分析不同情况下的稳定状态最大可用性概率和优化的软件自恢复时间。研究结果表明了:细粒度下的自恢复策略能够进一步降低自愈成本,提高系统的可用性,采取哪一级自恢复策略主要是由系统自身的参数决定的。 本文发展了基于统计学的算法来估计优化的软件自恢复时间阈值,在得到系统失效时间的统计完备样品数据的假设基础上。优化的软件自恢复时间阈值计算算法是在满足单位时间自恢复成本最小或者满足系统可用性最大的情况下通过统计的TTT变换推导而得到的。研究结果表明这类算法具有很好的一致性和稳定性,能够在系统失效分布未知的情况下通过检测系统参数加以修正而得到最佳最恢复时间阈值的近似值。 另外本文通过随机模型来评价自恢复技术在运行系统中的效应以及在考虑到负载情况下的所执行的最佳自恢复时间阈值的确定。特别的讨论了基于测量的方法来检测系统的软件老化以及这种效应对各种系统资源的影响。通过系统负载和资源的使用情况的数据来建立模型,这些数据来自于UNIX操作系统下经过一段时间的观察而得到。基于测量的模型有助于发展基于实际系统进行测量的软件自恢复策略。 最后,总结了本篇论文的主要结论以及下一步深入研究的方向和研究展望,其中