数据流上的高效Skyline查询

来源 :中国人民大学 | 被引量 : 0次 | 上传用户:liongliong423
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统数据库系统的处理对象主要是相对稳定的数据集。而在当今一些新的应用中,数据都以连续的、流的形式出现,而不是有限的存储数据集。这种动态的流数据其应用领域非常多,像股市行情、电信呼叫记录、传感网络、web日志与页面点击流、移动对象等都是典型的数据流,另外像一些随机访问困难的如天文、遥感、基因等海量数据集,从其技术处理手段来看亦可纳入此列。这些应用的普遍特点是它们一般都会产生大量的数据,常常以千兆字节计算,而且记录到达的速度非常快。  这些新型应用中出现的数据模型被定义为数据流模型,数据流的特征可概括为:①实时性;②无限性;③瞬时性;④流速不定性。针对数据流的特征,传统的数据处理技术(如数据库技术)已不能满足其处理要求,同样,原先用于静态数据的Skyline查询算法也不能再直接用在处理数据流上的skyline查询。  传统数据库上的skyline查询算法往往只计算一次,得到skyline查询结果就结束算法。而数据流的无限性要求新的skyline算法不停的输出最新结果,而且由于数据不停到达,数据量大且不能存储所有数据,skyline算法必须处理最近到达的数据并输出最新的结果,因此算法必须保证有很高的实时性。  本文在总结前人的经验上,首先提出来一种新的处理框架,专门用于数据流上的skyline查询处理。原先的框架主要由两个部分组成,预处理模块和维护模块,这两个模块在每次滑动窗口中出现点的变动时都需要大量重复的计算,效率并不高;为了减少预处理需要的计算以及维护需要的时间,本文提出的新框架把处理和维护过程结合,处理的同时也是维护的过程,维护的过程也是得到处理结果的过程。滑动窗口中进入一个新的点,把该点放入系统维护的一个结构中,这是一个维护过程,同时通过该结构,系统又可以很快得到skyline查询的结果。  在这个框架之上,本文再提出了两个不同的查询处理算法。DC-Tree和DSky-Tree。  DC-Tree采用分而治之的方法,依据点的维度把空间分成不同子空间,多个子空间结合成为一个上层子空间,上层子空间和下层子空间形成父子结构,这种层级结构构成了一个树,即DC-Tree。通过这个树形索引,每一个点可以很快找到自己所属于的最小子空间所在的分支节点。每个上层子空间对应的节点记录该子空间上得到的skyline点,更上一层的空间节点通过计算这些下层的skyline点得到更上层空间的skyline。最后就得到整个空间的skyline。就是采用这种分布每个点,然后合并每个小空间的skyline点来减少参与计算的点,提高计算skyline的查询效率,通过对滑动窗口中的点进行这种树形索引,并维持这种层次关系和控制关系结构,能高效的进行skyline查询结果的更新,从而实现实时的skyline查询结果。  DSky-Tree和DC-Tree一样,也是采用采用分而治之的方法,同样依据点的维度把空间分成不同子空间。由于DC-Tree完全划分了空间,固定了空间和子空间的关系,能够很快速的找到节点所属于的子节点,但是也明显的浪费了很多子空间所占有的空间,因为很多空间可能没有点,所以相比DC-Tree,DSky-Tree不再固定划分整个空间和子空间,而是根据点的情况,适应性的调整点的子空间划分情况,从而节省很多查询空间的浪费,虽然也因此牺牲了部分查询时间代价。该索引结构可以动态调整大小,相比DC-Tree而言,使得索引的结构更灵活,需要的存储空间也小很多,因此也具有很好的适应性。  两个算法有个共同的特点就是尽可能的减少参与计算的点:只有子空间中的skyline点才有可能成为最后的skyline点;充分利用数据流上点到达的特性:如果后达到的数据控制前面到达的数据,就可以删除这个被控制点,因为他永远不可能成为skyline点。  文章最后还通过实验分别证明了这两个算法的高效性。
其他文献
随着人们对知识表示、信息组织和复用以及为用户提供有效服务的需求越来越强烈,本体作为一种能在语义和知识层次上描述信息系统的概念模型建模工具,自提出以来就引起了国内外众
数据挖掘是当今人工智能和数据库研究方面最富活力的领域。数据挖掘是指从大量的数据中发现潜在的、有用的知识的过程。关联规则数据挖掘则是数据挖掘的一个主要研究内容。而
随着搜索引擎技术的深入发展,垂直搜索引擎在人们的个性化需求下应运而生。然而,作为垂直搜索引擎核心部分的主题蜘蛛在主题搜索方面却存在着效率不高、搜索页面信息范围受限、
普适计算(Ubiquitous Computing)创造了计算机计算的特殊阶段。这个阶段之所以特殊,是因为在信息空间与物理空间的融合中计算机自身在消亡,取而代之的是无线传感器网络。为了整
计算机辅助教学的一个重要应用是计算机辅助测验。自动组卷是计算机辅助测验的重要组成部分。组卷模型的设计必须遵循科学的教育测量理论,才能保证输出的试卷具有较高质量。在
随着计算机技术的发展,用计算机进行人群紧急疏散模拟成了近年来在计算机图形学和虚拟现实领域兴起的一个研究热点。这种运用计算机进行的人群紧急疏散行为模拟和研究,能在各种
在过去的二十年中,互联网取得了巨大的成功。互联网的成功,很大程度上归功于它简单易行的通信模式:一个节点只需要按照指定的协议发送和接收数据包,而不必了解负责传输数据的网络
数据挖掘是近些年来发展起来的新技术,通过数据挖掘,人们可以发现数据背后隐藏的有价值的、潜在的知识,为科学地进行各种商业决策提供强有力的支持。当今,数据挖掘已发展成一门跨
学位
随着Web应用的快速增长,XML数据逐渐成为数据存储的一种新的标准。作为XML的标准查询语言XQuery,其处理技术也得到了国内外研究人员广泛关注,形成了两套相对成熟查询处理方式(基