论文部分内容阅读
随着Internet的发展和应用的深入,对它的研究显得越来越重要和必要。模拟作为一种不可替代的网络研究方法,在网络规模的扩展和网络性能评价的准确性方面临了更高的挑战。研究界针对大规模网络模拟对计算和存储资源的依赖提出两种解决方案,一是希望通过分析抽象来减少对资源的消耗实现网络规模的扩展;二是通过采用并行模拟技术来改进模拟的规模和速度。本文主要针对在第二种解决方案的实现过程中所面临的容错问题进行研究,目的在于使并行分布式大规模网络模拟能更好地利用网格的资源优势,提供可靠持续的模拟服务。本文以并行分布式网络模拟器PDNS为研究对象,设想通过为其实现应用级的检查点和恢复功能,提高它的容错能力,从而可以可靠、持续地在分布式或网格环境中运行PDNS模拟任务。当运行模拟任务的节点出现故障时,可以利用检查点文件进行进程迁移,然后在网格调度系统新提供的资源上恢复运行,这还涉及到其余模拟节点进程的一致性回滚。文章首先将阐明选择应用级实现检查点和恢复技术的依据,随后将介绍“基于任务进展描述的应用级检查点”作为理论模型和技术参考。进而通过深入分析PDNS原理、结构和实现,抽象出PDNS运行时的状态数据,并定义相应数据结构保存其在检查点时刻的能保证正确恢复的状态信息。为确保各分节点及RTI检查点信息的一致性,需要明确给出保存与恢复的流程,以及恢复网络通信的方法。最后在实现了PDNS应用级检查点和恢复功能的基础上,力图给出并行模拟任务在网格中的容错重调度系统。该系统结合网格的资源管理和任务调度功能,提出并行模拟运行在网格平台上的方式,即如何利用网格的错误监控和定位,及时发现错误,如何利用网格的任务调度在新资源上及时恢复且保证效率,最终得以透明地在不过多损失原有计算量的基础上持续运行。同时,为保证课题完整性,结合课题组的研究成果,给出一个考虑应用生存性的网格应用管理系统。