论文部分内容阅读
近年来,数据以大容量,连续的流的形式出现在应用程序中引起了人们极大的关注,这些应用程序包括金融市场监控、网络监控、移动对象跟踪、资产跟踪、入侵检测和生态系统监测等,由于它们监控的都是实时事件,结果值随着时间推移而迅速发生改变,因此,低延迟处理是一个关键的要求。数据流处理系统能够高效的实现上述应用。目前,很多数据流处理系统都采用面向集群处理,这是因为很多应用本身就涉及到地理上分散的数据源,并且应用中使用更多的服务器能够更好的提高系统处理能力。但是越多的服务器和通信资源,导致更高的失效机率。在流处理系统中,失效或故障将产生处理延迟,更糟的是,失效可能会导致产生正确结果的至关重要的数据丢失。因此,数据流集群处理系统的可靠备份问题是目前数据流系统研究的热点和难点,同时也是一个富有挑战性的课题。本文主要研究并设计了一种新型的基于检查点的高可靠备份方案,通过并行恢复方法满足了数据流集群处理系统高可靠的需求。本文首先研究了主流的三种备份恢复方法,同时从恢复速度、CPU和带宽利用率以及它们相互之间的关系进行了比较。然后,在集群处理系统中采用并行恢复模式,提出优先基于操作盒负载的检查点单元形成策略和备份重新分配算法,从系统全局的角度将每台服务器上的检查点单元均衡地备份在多台服务器上,执行并行恢复。最后,在系统运行时阶段,提出基于检查点任务拆分与绑定策略的动态自适应调度算法,通过合理正确的调度算法,最小化系统恢复时间,减少故障造成的处理延迟,提高系统性能。综上所述,针对数据流集群处理系统中可靠备份方案的关键问题,本文在现有解决方案的基础上提出了更加行之有效的方案,全面且细致的分析了备份恢复的策略以及开销问题,对数据流系统可靠备份的研究,有一定的理论推动意义和实际应用价值。