论文部分内容阅读
随着信息技术在金融、交通、军事、生态监测、网络监测等领域的深入应用,需要计算机处理的数据类型和数据量与日俱增。作为一种新的数据类型,数据流在近些年得到了计算机界的广泛关注。由于连续、无界、顺序、时变的特点,数据流上的查询处理和数据管理与传统的数据库管理系统有很大不同。我们北京大学数据库实验室也在国内率先自主开发了集中式的数据流管理系统 Argus。
本文主要研究现有的集中式数据流系统在面临海量查询时计算能力有限情况下的查询处理问题,即协同多个计算单元来构造并行数据流系统。
本文首先提出并行流系统的体系结构,并给出运行模式。然后全文重点讨论了并行流系统中采取的并行策略,主要是查询间并行和查询内并行两个层面。关于查询间并行,问题主要是多查询共享,我们分别考虑相同算子和相似算子的情形:对相同的算子,要采取最恰当的共享执行顺序;至于相似的算子,我们针对选择算子和窗口算子这两类最重要的算子分别给出共享算子模式的算法。关于查询内并行,我们考查划分数据流和划分查询这两种策略并分别给出算法。然后我们针对典型的并行处理策略给出一系列验证性实验。文章最后对未来的研究工作做了展望。