论文部分内容阅读
随着工业控制、交通管理、环境监测、网络监测等各个领域中数据流应用的大量出现,数据流上的查询处理成为近年来研究的热点问题。这些应用中的数据通常来源于多个计算设备,形成了分布式的数据流。目前已有的数据流管理系统大都采用将分布式数据流汇总后进行集中式查询处理的方法。对于许多分布范围广、数据流速快的应用来说,汇总所有数据所需的网络开销巨大,是昂贵而且不现实的。
本文结合Argus系统原有的模块化结构,设计并实现了Argus系统中的分布式流查询处理框架。通过这一框架,查询首先被解析成查询网络中的若干算子,随后这些算子被放置在不同的数据源节点上,由所有节点共同完成查询处理的工作。
在上述分布式流查询处理框架下,本文提出了一种适用于各种聚集查询的基于树形执行网络的近似查询处理算法,由中央协调节点将误差合理分配给每个数据源节点,从而降低通信次数并维护误差范围内的近似查询结果。树形执行网络的设计,用层间通信的方法解决了中央协调节点同时与所有数据源节点通信所导致的“中央瓶颈”问题。
最终我们以Top-k查询为例,实现了树形执行网络上的近似查询处理算法,同时还提出了Top-K查询处理的自适应k′算法,通过自适应地调整k值大小,来进一步提高Top-k查询的执行效率。