论文部分内容阅读
近年来,信息处理技术的应用领域得到了很大的拓展,如金融应用、电子商务、网络监控和实时分析等。在这些应用中,静态的关系数据已经不能满足人们的需要。在处理现实世界的实时事件中,如何实现连续、快速、稳定和低延时的数据流处理成为目前的研究热点之一。而作为分布式系统关键技术的容错机制和负载管理技术,对分布式数据流处理系统的性能起着十分重要的作用。因此,本文重点研究了分布式流处理系统中的关键技术:(1)容错机制,(2)负载管理技术。
为了改进现有的分布式数据流处理系统中的容错机制,本文设计了一种基于自适应修复和节点复制的方法(Self-Recovery and Replication—based Backup,简称SRRB),来实现快速、稳定的数据流处理。基于SRRB修复机制的数据流处理系统通过使用节点复制机制,利用对等节点并行向下游节点发送数据,使下游节点能够使用最先到达该节点的输入数据,来提高数据流的传输速度。同时,SRRB通过使用自适应修复机制,实现了操作算子之间的通信稳定和提高了系统的容错性能。其次为了平衡网络开销和低延时保障,提出用中心节点算法选择后备节点。
为了改进现有的分布式数据流处理系统中的负载平衡技术,本文首先设计了一种基于装箱模型的经济型操作算子分布策略(Economical Operator Distribution,简称EOD),在考虑服务器的CPU处理能力的同时引入带宽约束条件,并将它们转化为数学模型中的优化问题来求解。其次设计了超操作算子(Super Operator,简称SO),解决系统在初始化时实现多级操作算子的负载平衡,提高了分布式数据流处理系统整体的稳定性。再次提出了基于染色装箱模型的染色超操作算子(ColorSuper-Operator,简称CSO)方法,把“同级”操作算子分配在不同的服务器上,增强系统的容错处理能力。同时充分利用基于超操作算子和染色装箱模型的降载技术,避免输入数据流突变或波动对系统造成的影响,保证了高质量的查询结果。
最后综合上述方案设计了一种经济型容错负载平衡策略(Economical andFault-Tolerant Load Balancing Strategy,简称EFTLBS),在不移动服务器上的操作算子或任务的基础上,保证了连续、快速、稳定、低延时和高可用的数据流应用。
通过在网络仿真器NS-3平台上的模拟,验证了本文提出的SRRB容错机制和EFTLBS负载平衡方法具有更好的连续、快速、稳定和高可用性。