分布式数据流管理系统的物理查询计划生成与优化

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:zengbiao2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,一些数据密集型应用大量涌现,例如网络监控、电信数据管理、传感器网络等应用。这些应用需要对地理上分布的结点中多样的、大量的数据流进行实时的连续查询。这些数据通常具有实时,有序,无限等“流”的特征,并且往往由分布在不同地理位置上的设备产生。为处理相对静态的磁盘数据优化的关系数据库无法高效地处理这类实时数据。而这些实时数据的分布性从数据传输、可靠性和处理能力等方面向集中式的处理方式提出了挑战。通用的数据流管理系统不可避免地向分布式系统发展。于是分布式数据流管理系统(DDSMS)应运而生,相关的研究大量展开。查询处理在DDSMS系统中是一种非常关键的技术。DDSMS的查询处理过程包括查询预处理、逻辑查询计划的生成、物理查询计划的生成、优化处理以及查询的执行。根据逻辑计划生成物理查询计划是数据流查询过程中的重要步骤,它的合理有效是系统实时性保证的关键问题之一。在此过程中,不仅需要特定的转换规则,定义合适的数据结构,还要制定各种物理算子的实现算法等。在关系数据库中,查询优化一般基于表的“势”的基础之上来评估一个查询计划的开销。但是由于数据流的无界性,这种查询优化的方法就失去意义了。DDSMS系统并行运行着大量的连续查询。生成初始查询计划时应同时考虑查询优化和算子部署问题。数据流的特性和查询工作负载随时间不断变化,一个连续查询的初始查询计划可能变得效率低下。因此,查询优化器要在运行时根据当前统计数据进行再优化。分布式数据流管理系统的物理查询计划的生成与优化是DDSMS的重要研究内容。针对这些问题给出各种物理算子的具体实现,介绍了物理查询计划的生成过程,并引入了一种优化框架,给出此系统中查询优化的正式定义、代价模型以及一些优化策略。
其他文献
在Internet大众化及Web技术快速发展的今天,企业已开始逐步关注自身公司网络应用的发展。网络应用如今已经从一般的网站发展成为大型电子商务、信息发布和提供各种服务的平台
摘要:过去的20年来,由于人类对互联网带宽无止境的需求,加上视频压缩技术的发展以及不断增长的用户需求,基于互联网的视频流应用很快成长为主流的“杀手”级应用。为了满足高
随着信息技术的广泛应用,软件的应用面也越来越广,要求对软件开发的针对性和及时性越来越高,特别是中小型软件公司,它们不一定能够认证和实施CMM管理,但是同样需要一个软件质量度
随着信息化程度的提高,在人类社会的各个领域聚集了大量甚至是海量的数据,数据挖掘就是要从这些数据中提取有用的信息,从上世纪80年代末以来人们对数据挖掘模型、算法、系统
WebGIS是在Web网络环境下的一种兼容、存储、处理、分析和显示与应用地理信息的计算机系统。它是Web技术和GIS技术相结合的产物,其基本出发点就是利用互联网发布地理信息,让客
目前,程序员通常需要使用不同的工具集,而这些工具集是在不同领域内操作的。为了提供灵活的工具集成,一个工具集成平台必须允许工具开发者根据投资额、预期的上市时间,以及特
随着市场竞争的日益激烈,企业之间的联系也越来越紧密,企业之间的业务协同变得越来越频繁和重要。但是,企业在信息化建设中产生了大量的软件系统,这些系统一般都是单独实施、
近几年,汽车上基于嵌入式系统的电子控制单元(ECU)越来越多,目标应用系统越来越复杂。相关数据显示,每辆汽车拥有的独立电子器件和系统数目平均超过80个,越来越多的电子系统
低秩矩阵恢复将向量的稀疏表示推广到矩阵的低秩情形,且已经成为继压缩传感(CS)之后的一个重要的数据表征方式。基于低秩矩阵恢复在统计学习、计算机视觉和信号处理中获得了
随着计算机技术和多媒体技术的快速发展,计算机存储的数据已经不仅是一些简单的文字数据,还包括图片、声音、视频等数据。这些数据通常被称为大文本数据,是一种二进制大对象(BLO