论文部分内容阅读
近几年网格计算技术发展迅速,已近从最初的高性能计算系统发展成一个在异构、动态的分布式环境下进行资源的共享和协同计算的基础设施。网格能将分布在互联网上的计算资源组织起来,能充分利用网络中的空闲资源,实现了复杂工程应用问题的协同解决,为用户提供强大的计算能力和众多的可用资源。网格的应用极大的促进了科学研究和工程实践的发展。然而,也正是由于网格系统本身及其资源的高度动态异构性,给网格计算平台带来了比传统计算平台更大的出错概率。网格中的频繁的故障已经成为降低网格计算效率,困扰工程技术人员和网格用户的主要问题之一。如何针对网格系统的异构动态特点,引入恰当的容错机制,提高网格计算中的稳定性和可靠性,是网格研究的热点和难点。
针对网格计算中的错误处理问题,本文分析了网格容错的各种理论,讨论了网格容错的基础——冗余,在深入研究现有网格容错技术,对比各自优缺点和计算容错系统最佳参数基础上,提出了一种新的节点倍增式自适应的容错策略。该容错策略的优点在于在不同的网络环境下,不需要更换容错策略,不需要人为设置节点数量,自适应容错策略能够通过不断重试来得到网格的情况,并自动选择足够的节点数量,以此来增加冗余度进行作业级别的容错,直到全部作业成功完成。此外,本文还对各种容错算法进行了平均执行时间和资源消耗方面的数学建模。文章的最后对现有的各种网格模拟工具进行了对比,并最终选择了GridSim这个模拟工具验证本文提出的容错策略,通过仿真实验得到的数据生成的折线图得出新提出的节点倍增自适应容错策略相比常用容错策略在平均执行时间和系统资源消耗上的优越性。