基于滑动窗口的数据流查询处理技术的研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:cxddqqqqqq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的发展,许多应用中的数据不再是数据库中静态的数据,而是以一种流的方式在线到达的动态数据。这样的数据具有数据无界,数据量大,流速快,并且要求实时处理等特性,这种新型的数据被称为流数据。对应的,包含流数据的应用被称为数据流的应用。而这种新型的数据使得传统的查询处理方法产生了很多的问题,比如数据的无限性就使得传统的阻塞处理方法变得无效。针对数据流应用中产生的问题,专家学者们开展了广泛的研究工作。如同传统数据库中存在数据库管理系统一样,在研究数据流时需要开发数据流管理系统,这样的系统负责对流式数据进行查询处理。 数据流管理系统中的核心是查询处理功能模块。通常情况下,在数据流上基本的查询处理包括选择、投影和连接(SPJ)操作。相对于选择与投影,连接操作更为复杂。由于数据流的无限性和连接操作的阻塞性质,使得在数据流上的连接操作必须要加以限制。因此滑动窗口的概念也就很自然的引入到数据流中,通过对处理的数据加上滑动窗口的限制,变传统的阻塞操作为流上的非阻塞操作。对流上连接操作的研究也是广泛的展开,但是当前的研究都是针对于等值连接来开展的,并没有考虑到非等值连接操作的处理该如何进行。然而在一些实际的应用中非等值连接的查询处理也是十分重要的。例如在线拍卖的应用中,需要对出价时间与拍卖商品的有效时间进行比较从而检查系统中注册的查询的合法性。因此我们对非等值连接操作也会进行详细介绍。 另外,由于数据流的特性,通常情况下数据流的查询处理都是在主存中进行的,其目的是为了避免频繁的磁盘读取操作,从而提高了查询处理的效率。除此之外,如果直接对流数据进行查询处理无疑效率是很低的,为了能够进一步的提高效率,我们采用了基于红黑树索引的查询处理方法。红黑树易于建立和维护,所以这种数据结构是一种适用于主存的数据结构。通过红黑树索引的技术能够提高查询处理的效率。这样在查询处理过程中将首先对流式数据建立索引,而后利用索引进行高效的查询处理。 我们开发了数据流管理原型系统RealStream,在多流多查询环境下能够对流数据进行基本的查询处理以及优化,在系统中集成了索引连接查询处理的方法。本文将着重的介绍对流数据建立索引方法以及基于索引的连接查询处理方法,然后对数据流管理系统RealStream进行简要的介绍。
其他文献
无线传感器网络(Wireless Sensor Network,WSN)是由大量造价低、体积小的传感器节点以自组织方式构成的无线网络。通过感知、采集和分析监测数据,无线传感器网络能够检测出发
缩短嵌入式系统的开发周期,降低开发成本,并使之满足执行时间、功耗等性能上的约束是目前嵌入式系统开发面临的主要问题。软硬件协同设计思想的出现加快了嵌入式系统设计的开发
本文对基于Web Services的业务流程建模进行了研究。文章以WebServices为基础创建业务流程模型,将企业的业务进行整合,以实现企业资源的优化配置,从而适应复杂多变的商务环境。
SOC技术是一种高度集成化、固件化的系统集成技术。使用SOC技术设计系统的核心思想,就是要把整个应用电子系统全部集成在一个芯片中。随着现代嵌入式系统的迅速发展,仿真器以
网络和多媒体技术在教育领域的应用,带来了教育观念、教育模式、教学方法和教学手段等的深刻变革。Internet的分布式资源环境,在知识获取方式、共享能力及协作学习等方面为远
随着信息技术和网络技术的发展、各种应用服务的普及,为了提高用户的使用效率、方便管理员的管理,集成身份认证(Single Sign-On,SSO)和安全有效的授权管理需求越来越强烈。
语义依存是中文语义的深层分析,完善的语义表示体系对语义依存分析有重要作用。但是,目前公开且规范的中文语义依存标注语料还比较少。HIT语义依存是第一个被用来组织公开语义
由于自动导引车的高效性,精确性和灵活性,自动导引车在制造设施、仓库、配送中心和中转码头等地方得到广泛应用。自动导引车对可靠性要求非常高,形式化方法是保证高可靠性的
血管疾病已成为威胁当前发达国家公众健康的头号因素。近年来医学图像中的磁共振成像(MRI)能够有效地呈现出医学数据的几何形态等特征。如果能够采用MRI数据重建出三维脑血管
随着宽带网的发展和用户数量急剧增加,Web服务器成为访问的瓶颈。B/S模式中的Web服务器单点失效可能影响整个网络的可靠性。利用现有的Web缓存服务器和Web缓存服务器机群方案