论文部分内容阅读
有关流数据分析与管理的研究是目前国际数据库研究领域的一个热点。在过去30多年中,尽管传统数据库技术发展迅速且得到了广泛应用,但是它不能够处理在诸如网络路由、传感器网络、股票分析等应用中所生成的一种新型数据,即流数据。流数据的特点是数据持续到达,且速度快、规模宏大。许多面向流处理应用的系统具有固有的分布式特征,应用通常部署在一个由具有不同计算能力的设备连接而成的环境里,采用分布式计算是唯一解决方案。本文分析了大规模分布式流处理系统设计所要面临的体系结构上的挑战和所要解决的几大关键技术问题,指出了现有分布式流处理系统的缺点,提出利用基于组件的开发方法,在现有的单机数据流处理系统的基础上利用各种成熟技术开发分布式数据流处理系统的构想。然后设计了一个基于ACE-TAO的分布式数据流处理系统的体系结构——DStream。分析了它的各个组件的基本结构和功能。接着讨论了负载平衡和高可用性问题,针对分布式流处理系统的特点,本文采用的负载平衡方法旨在最小化节点间的通信量,而本文提出的高可用性方法——上游流节点法,也同样基于此考虑,以提高系统的性能。本系统的设计充分利用了现有的数据流处理技术和分布式计算技术,采用的负载平衡与高可用性算法也易于实现,具有较高的实用价值。