面向滑动窗口的数据流聚集查询算法研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:shaoyuqi521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
流数据无处不在,股票交易记录、网络流量、传感器网络中的数据、web日志都是其中典型的例子。此外,航天、音乐、医学等领域也存在着大量的数据流应用。在这些应用中,数据量都非常庞大,而且数据持续产生的速度很惊人。因此,对于这些数据进行查询、分析的难度也越来越大。   在传统的数据库管理系统中,往往依据查询操作的数值特性对数据进行组织,建立索引,其中可能涉及到排序等计算。然而,在数据流环境中,首先,数据实时产生且到达顺序不受应用系统限制,而且一旦流过就不能再被访问。这对于传统的索引技术来说都是极大的挑战。其次,在滑动窗口模型下,数据依次序到达,流经滑动窗口进行处理然后过期。这隐含地要求能依据时间戳对数据进行索引。采用传统的索引技术,可以有两个选择:或者分别对数值特性和时间特性进行索引,或者可以将时间戳作为数据元组的一个属性来进行统一索引。这两种方式都有各自的缺陷。   笔者提出了一种栅栏结构的索引方式,充分利用周期性持续查询的语义,将时间索引和数值索引结合起来,计算中又彼此独立。这种索引结构适用于多种聚集函数,在滑动窗口模型下能很好的处理状态的增量维护问题。值得一提的是,栅栏结构还适用于分布式环境和并行处理。   本文的主要贡献之一就是基于栅栏结构,实现了滑动窗口下的top-k和countdistinct持续监控算法。top-k查询是统计分析的重要类型,在很多在线应用中都发挥着重要的作用。传统的top-k查询算法无法适应数据流的高度动态环境,一些数据流下的算法无法实现状态的增量维护,因而导致计算复杂度很高。我们采用栅栏结构来索引数据,通过对有效元组的精确维护,在返回精确结果的前提下,空间存储最优,时间复杂度为O(logk+M2k+M2lggM+Mk logM/R),R>>k的情况下,时间复杂度近似为O(logk)。通过模拟数据集和实际数据集上的实验结果说明,该算法的时间复杂度和空间复杂度都优于其它算法。   count distinct算法也是数据流研究的一个重要问题。之前的研究都只限于收银机模型。笔者在活跃流计数的场景下,通过对于栅栏结构基本运算的重定义,成功地解决了超时检测和流计数分别实现导致系统开销过大的问题。这个工作在转盘模型下实现,证明了栅栏结构的扩展性和适应性。在线实验的结果证明,本算法完全可以用于高速链路上的超时检测和流计数。   最后本文开发了一个基于流的网络监控分析系统,用于高速链路上网络流的在线分析。系统的核心是本文开发的数据流聚集算法,还将在多聚集查询优化的工作集成到系统中,使得系统具有良好的扩展性,能应付更多用户更复杂的查询处理。
其他文献
随着信息技术的迅猛发展,各种信息的获取、保存与使用方式给人们带来了极大的方便,但未经版权所有人许可,对数字作品的任意复制、修改等盗版行为也日趋严重。在此背景下,数字
动词子语类框架(subcategorization frame,以下简称SCF)信息在语言学上有重要的意义,它可以解决绝大部分词语的论元和附属语区分问题。在概率句法分析应用中,子语类框架信息可以
新型网络结构、业务模式以及网络安全等研究由于缺乏大规模测试环境的支持很难展开深入的研究与验证,导致研究成果缺乏说服力。面向上述研究的大规模网络模拟技术对计算机网络
数控系统作为衡量一个国家制造业水平的重要标志越来越受到人们的重视。目前,大多数数控系统已经具备了速度快、精度高和智能化的特点,但传统的数控系统,只能同时完成一个工
分辨率的提高与压缩技术的进步,使得数字视频和图像处理应用对高性能的需求也与日俱增。同时还需要保持架构的灵活性,以获得快速升级的能力。此外,技术的成熟以及需求的增加要求
数据挖掘在人工智能的研究中具有重要地位。传统的数据挖掘研究一般基于理想环境进行,即数据是完整的,类别是均衡的。但在现实世界中环境是非确定性的,即数据中普遍含有噪声,
决策树方法是一种广泛使用的用于分类的方法,它通过一组无次序,无规则的实例推理出决策树表示形式的分类规则,从而找到一些有价值的、潜在的信息。本文通过对数据集和决策树
随着医疗卫生事业的发展,在临床医疗活动中的药物使用问题逐步成为公众关注的焦点。世界卫生组织指出在地球上每年死亡的人群中有740万人不是由于自然衰老或疾病的原因死亡,而
学位
电子支付是电子商务的核心,直接影响到电子商务的发展速度和范围。目前已有的电子支付方式中,电子现金是一种新兴的,极具潜力的支付方式。电子现金具有现实货币的特性,具有匿
随着集成电路制造工艺的进步和微处理器设计技术的发展,单发射按序执行处理器表现出强劲的生命力,不仅在嵌入式计算领域得到日益广泛的应用,而且代表了高性能计算领域微处理器设