论文部分内容阅读
随着大数据计算时代的到来,流式数据处理逐渐成为一个热门的研究领域。由于对数据处理低延时的严格要求,传统的计算模型已经不能满足流式数据处理的应用场景,流式数据处理需要一个全新的计算模型对其进行支持。本文重点研究大数据计算中流式处理相关的三个问题:(a)能否利用某些特有的通信技术手段从本质上提升流式计算的通信效率?(b)现有的相关理论模型能否用于指导流式数据处理系统的设计和实现?(c)能否利用流式数据计算的特点对流式数据处理系统进行相应的优化? 针对以上三个问题,本文的主要研究内容和贡献如下: 针对(a)问题,设计和实现了流式数据处理系统MPI-D Streaming,该系统在上层兼容现有的流式计算模型的前提下,底层使用先进的高性能计算通信库,使得流式数据处理平台可以利用先进的高性能通信网络,为从根本上解决流式计算的通信效率问题提供了可能,目前该研究成果已经准备开源,为开源社区做出贡献。 针对(b)问题,发现和证明了流式计算满足DOTA模型。本文论述了流式计算系统选择计算模型指导的原因和好处,并通过现有的三种经典计算模型的对比,最终认为DOTA模型适合用于指导流式数据处理系统的设计和实现并分析了其它经典模型不适合的原因。流式DOTA模型的确立为今后的流式计算领域进行推导证明提供了理论基础。 针对(c)问题,发现了流式数据处理中存在的流叠加现象,进而提出了流式数据处理系统中存在操作和传输两种局部性特征。本文利用该现象对流式处理系统进行优化,并从理论模型的角度对上述两种局部性特征进行了证明,从而证明了流式DOTA模型和流式数据处理系统间存在着内在联系。