论文部分内容阅读
为了保证网络正常、经济、可靠、安全的运行,近年来,作为网管系统组成部分的网管软件的可靠性日益受到广泛的关注。网管软件作为领域内应用软件,既具有自身的特色,也具有一般计算机软件的特征。本文在归纳当前软件可靠性领域研究成果和网络管理软件工程实践的基础上,提出了网管软件可靠性工程的框架和实施方法。并针对当前网管软件存在的具体可靠性设计,提出了建模和分析技术。本文的主要贡献如下:(1)根据软件可靠性工程领域的研究成果,以WDM网管软件为示例系统,提出了在网管软件中开展可靠性工程的框架。内容涵盖网管软件失效和失效严重程度类定义、软件可靠性模型选择、软件可靠性指标分配、网管软件可靠性设计等方面,并结合网管软件的特点,提出了具体的实施方法。(2)在当前网管软件可靠性设计的基础上,提出了一种分析网管软件运行阶段模块可靠性的方法。该方法首先把网管系统中使用的定时报活、模块冗余等可靠性措施组合为3种主要运行场景;然后,运用马尔科夫再生随机Petri网对3种场景进行了建模,定量分析了不同运行场景对模块可靠性的影响,并应用模型得到了模块可用度等重要的可靠性指标。结果表明,网管软件模块运行阶段的可靠性取决于自身质量和运行场景两方面的因素,可通过配置场景针对性地进行网管软件可靠性设计。(3)在当前网管软件可靠性设计的基础上,提出了一种分析网管系统软件总线环境下通信可靠性的方法。该方法首先从环境因素和队列行为两方面分析了软件总线环境下的消息传送过程;然后,运用基于时间的Petri网对消息传送过程进行了建模;最后使用约减方法和矩阵几何方法对模型进行了定量分析,得到了消息传送成功率等重要的可靠性指标。通过数字实例分析了环境因素和队列行为对通信可靠性的影响。(4)在当前失效相关性研究的基础上,提出了一种结合失效相关性和维护策略的软件可靠性模型。该模型根据非确定性修改维护策略的特点和两次运行之间的六种状态转换方式,采用了包含成功运行、失败运行和版本更新等三类点的马尔科夫更新过程,在离散时间上和连续时间上分别建立了软件可靠性模型。在此基础上,将分层思想引入了模型:在每一层上对相互依赖的软件运行进行建模,在层与层之间对维护策略进行建模。最后应用上述模型得到了失效间隔时间分布函数、可靠度、平均失效间隔时间、预测失效发生数和错误清除数等重要的可靠性指标。经过模型比较与分析,验证了该模型与其它可靠性模型的内在一致性,分析了错误延迟清除对失效相关性的影响。