论文部分内容阅读
近年来,随着电子器件的发展,计算机的处理能力有显著提高。但是,仅仅依靠电子器件的发展而达到的速度提高,远不能满足现代科学、工程技术和其他许多领域对高速运算能力的需要。这就要求人们改进计算机系统结构以及采用各种并行处理技术,以便大幅度地提高处理速度和运算能力。其中,以并行计算机系统为核心的计算机平台占据着极其重要的地位,基于Torus的并行计算机系统具有对称性、良好扩展性、规则、易于VLSI实现及路径多样性等诸多优点而备受关注。然而,由于并行计算机系统通常应用于非常重要的计算、控制和研究领域中。因此,系统一旦发生故障,将带来不可估量的甚至灾难性损失。为使并行计算机系统在运行或生产过程中能够保持正常运行,对其可靠性进行研究是重要课题之一。
本文首先介绍本课题相关的预备知识,包括并行计算机与高性能计算机的关系、并行计算机体系结构、基于Torus的并行计算机网络的定义、可靠性的基本概念、可靠性发展概况、可靠性的重要意义、以及指数分布函数和马尔可夫过程等相关知识。
接着应用马尔可夫过程研究基于Torus的并行计算机网络的可靠性。通过建立马尔可夫过程各状态空间图,且将状态图转换为可靠性模型的数学表达式,分析了结点失效相互独立条件下的Torus网络的可靠性,并将不同规模的Torus网络可靠度数值计算结果进行比较,结果表明网络运行时间越长或网络规模越大其可靠性越低的一般规律。然后进一步分析结点失效相关的Torus网络的可靠性,并将数值计算结果与结点不相关的Torus网络可靠性进行比较,结果表明结点相关的Torus网络可靠性低于结点不相关的Torus网络。
最后采用组合模型和递推分解的思想对大规模Torus网络的可靠性进行分析,其目的是避开应用马尔可夫过程求解计算遇到的NP难题。对特大规模的Torus网络,递推分解算法还可以通过采用可靠度上下界逐步逼近的方法,得到一定精度的可靠度近似值。数值结果表明:在结点失效概率均小于0.10%时,对多达上千个结点的Torus网络仍超过0.9106352的可靠度。