Argus数据流管理系统中高负载下的冰山查询机制

来源 :北京大学 | 被引量 : 0次 | 上传用户:chloexg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在许多最近出现的应用中数据都以连续、无界、快速、时变的数据流形式出现,在此之上产生了数据流管理系统(DSMS)的概念。冰山查询是数据流管理系统中的一个典型应用,例如网络攻击检测、热点查询分析、环境突变监测等。而数据流系统快速时变的特点引出对数据峰值有效处理的需求,在数据流入速度超过数据流系统处理能力时,如何保证结果的正确性和时效性,这促使在数据流管理系统中提出了诸多有效的LoadShedding解决方案。 但现有LoadShedding机制并不能有效解决过载情况下的冰山查询问题。冰山查询是对数据流中频繁项集的挖掘,其具有对元组分布特征的敏感性,这使得数据峰值的出现对冰山查询有效性的影响额外显著。特别是在许多应用中,数据峰值带来的不仅是更多的数据,而且还是分布特征异于通常情况的数据,冰山查询的结果常常来自于这些数据峰值中的数据,例如网络DOS攻击检测等。 为了提高冰山查询应用在高负载情况下的可用性,本文设计实现了针对冰山查询的LoadShedding机制,在发生数据峰值时不仅通过数据压缩降低系统负载,同时通过预处理器模块生成保留了元组分布特征信息的范围元组,并设计实现了接受范围元组作为输入的SCOPE-FDPM-1冰山查询算法。 预处理器模块根据用户设定的时延容忍度对Argus未处理的元组进行存储,并在过载时对存储队列按照等深直方图的方式进行压缩,使其能够较好的保留高频元组的信息,而后生成范围元组提交给Argus查询引擎。SCOPE-FDPM-1算法从FDPM-1冰山查询算法演化而来,能够有效的处理范围元组携带的分布特征信息,在数据过载的情况下尽可能减少对冰山查询算子效能的损失。 通过对天网日志分析的试验表明,本文所提出的过载下冰山查询机制能够在一定程度上减少出现数据峰值时冰山查询算子效能的损失,优于传统的LoadShedding机制。
其他文献
本文结合哈尔滨工业大学可穿戴计算机工程研究中心的项目分析了炮兵的实际需求,在通用的军用可穿戴计算机的基础上,搭建了基于数字化单兵的炮兵前观所系统硬件平台,并设计快
电子表格作为组织、存储和分析数据的终端应用程序,在各个领域(尤其是商业领域)被广泛使用,每年有数千万的用户创建、维护数以亿计的电子表格。以Microsoft Excel为代表的电
随着三维建模技术和互联网技术的快速发展,三维模型的数量呈爆炸性增长。面对庞大的三维模型资源,如何快速准确地查找到所需的三维模型,对其重复利用,成为继图像、视频检索之
移动通信和嵌入式计算技术的进步,大大促进了无线移动应用的发展。由于嵌入式设备的处理能力很有限,无线网络传输速度比较慢,使得无线移动应用软件的性能成为了一个倍受瞩目的问
本文从传统的入侵检测技术入手,对入侵行为、防火墙、入侵检测、入侵防御等各项技术做了简要的介绍,分析了目前各种入侵检测/防御模型的优缺点,并从常见的网页入侵类型入手,分析
本文提出了“Harmonia计算网格应用执行环境”,并且开发了相应的系统平台。在一定问题域内解决了科学计算工作者与网格服务以及网格服务与网格服务之间的协同问题。“Harmonia
  垃圾邮件已经成为互联网的头号敌人,在资源和时间的浪费上已经严重到了令人不能忍受的地步。人们迫切的需要在最短的时间内解决或者缓解这个问题。    本文总结了国内
远程医疗系统是综合运用计算机网络技术、软件技术、图形图像处理技术、数据库技术、人工智能和专家系统等密切相关的技术来构建的。在该系统中,视频图像的处理、传输和应用是
事务处理在网络分布计算环境中具有重要作用。作为中间件平台的一个重要组成部分,事务监控器为整个业务系统提供分布式事务处理的支持设施。 当前绝大多数的事务监控器遵
频繁项集挖掘是数据流挖掘中重要的研究领域,目前国内外数据流频繁项集挖掘算法还存在诸多问题。例如模式产生延迟比较严重;挖掘出的频繁项集相当庞大;简单的挖掘算法没有面