论文部分内容阅读
随着计算机技术的发展,流数据应用越来越普遍。传感器网络中存在很多分布式流数据。流数据应用场景对实时处理分析有更高的要求,需要研究高效可扩展的流连接模型。由于分布式流数据延迟,在流数据的时间戳中存在乱序数据,需要在满足查询质量要求时尽可能做到等待时间最小化,更好的平衡准确率和等待时间。本文主要研究内容如下: 一、研究了现有的流数据处理系统和方法,提出了一种基于缓存的自适应乱序处理方法,ABQ-slack。它支持在乱序流数据上做质量驱动的滑动窗口聚合查询,ABQ-slack在不超过允许的错误率阈值条件下,查询时动态的调整输入缓存大小来最小化等待时间。 二、研究了分布式流连接处理,提出一个流连接模型,称为多分连接。基于多分连接,设计可扩展的分布式流连接——多流,并详细讨论了基于滑动窗口的连接。 三、详细介绍了敦煌莫高窟流数据,使用模拟数据和敦煌莫高窟环境监测数据对ABQ-Slack和多流进行了实验研究。在多个场景中验证了期望结果和准确率之间的权衡的有效性,本文从效率、可扩展性等多个方面进行了分析和验证,并在单机上进行模拟了集群实验。