数据流上序敏感查询处理关键技术研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:tfjxy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着网络通信技术发展和应用,在很多应用处理领域出现了一种新新型数据模型——数据流。典型的数据流包括:网络安全监测、无线传感器网络应用环境中由传感器传回的各种监测数据、股票交易所的股票价格信息、道路交通监测系统的监测数据、电信部门的通话记录数据,以及网站的日志信息等。与传统数据库模型不同,数据流具有快速、实时、连续、无界等特点。由于在线处理系统的存储容量不是无限扩展的,无法保存全部数据流元组,因此数据流上的查询处理算法应该是单遍扫描(one-pass)的。传统数据库上的查询处理只能处理存储在磁盘或内存等介质中的静态数据,大多要做多遍扫描,空间复杂度和时间复杂度较高,不能直接应用到数据流上。面对这些持续快速到达的海量数据流,如何利用有限的资源进行高效的处理分析成为当前研究的热点。在海量数据流环境下,由于存储和计算能力的限制,很难对所有的数据存储处理。Top-k查询和Skyline查询能够帮助用户从海量数据集中返回对用户价值最大的少量信息,成为数据库领域最为重要的查询之一。Top-k查询的目标是根据用户定义的排序函数找出评价值最高的k个对象集,而Skyline查询是一种多目标决策,是根据用户在各个属性上的偏好查找不被其它对象“支配”的对象集。由于top-k查询和Skyline查询都是关注含有排序信息的结果集,在本文中我们把top-k查询和Skyline查询统称为序敏感查询。本文主要贡献为:1、数据流上约束Skyline查询技术研究。约束Skyline查询(Constrained Skyline queries)是常规Skyline的一个变种,结果集不再是全局的Skyline结果,而是在满足用户偏好要求的数据子集上的Skyline结果集,即由用户在每个维度上定义取值约束,返回满足用户自定义约束集要求的结果集。约束Skyline查询的意义在于能够更细致的满足用户的需求。比如用户在寻找一家价格便宜且距海滨近的饭店,对住宿的费用有一定的要求,价格太低可能住宿条件不好,价格太高又超出预算。因此对饭店的价格有一个选择区间,这个区间可以称为用户在价格这个维度上定义的约束。本文对数据流上具有约束条件的Skyline查询特点进行了分析,针对约束Skyline的特点,提出两个算法用于计算和维护Skyline集合。2、数据流上动态Skyline查询技术研究。约束Skyline是动态Skyline的一个特例,约束Skyline是在每维上定义约束,而动态Skyline则要求计算在数据空间中与某元组最相近的数据集合。我们采用了网格索引存储数据元组,通过为每个查询定义影响区域,使得在元组到达和失效时需要处理的元组个数最小化,提出了GBDS算法用于计算和维护动态Skyline。3、分布式数据流上的连续Skyline计算方法。数据流的本质是分布的。在分布式数据流环境下,不仅要考虑中心节点和各个子节点上的计算效率,还要考虑中心节点和子节点间的通信开销。本文提出了一种高效的分布式数据流上的连续Skyline计算方法,在各节点上采用基于网格索引的Skyline提高计算效率,同时通过在各个子节点维护最有支配能力的k个Skyline点,降低各节点间的通信开销。4、一种数据流上的多top-k查询资源共享技术研究。研究了单数据流上的多个top-k查询场景下的资源共享问题,提出了一种资源共享策略RS-Tpk,充分利用了top-k查询本身的特点,通过在不同切片间进行数据传递,提高切片间资源共享的范围,降低了计算时间。5、一种基于裁剪策略的高效数据流top-k连续查询方法。针对数据流存储开销大问题,我们采用了一种方法对数据元组进行裁剪,仅保存未来可能成为top-k查询结果的元组,降低了计算时间和存储开销。现有的top-k查询大多是基于单调函数的,我们提出了一种新颖的数据结构,对滑动窗口内的元组进行索引,高效率地计算top-k。这种数据结构解除了仅支持单调函数的限制,可以支持任意评分函数,同时降低了数据维度对计算复杂度的影响。
其他文献
从不亲和野生花生Arachis glabrata Benth与栽培种种间杂种中提取mRNA,反转录成cDNA双链并连接上接头,用接头上的引物进行PCR高保真扩增,成功建立了花生cDNAPCR库。用光敏生物素
珠心算学习和训练的目的,不仅要提高学生的计算能力,开发儿童的智力,同时还要结合珠心算的学科特点与学生的年龄、学识,积极渗透思想品德教育。促进学生的道德品质健康发展,
期刊
目的:运用锥束CT(CBCT)分析比较安氏Ⅱ类2分类错[牙合]与个别正常[牙合]关节位置的差异。方法选择符合试验设计的23例安氏Ⅱ类2分类错[牙合]患者为试验组,27例个别正常[牙合]为对
云计算的兴起为数据保护技术带来了新的挑战和机遇。一方面,规模庞大的云存储系统中存有海量数据,其系统复杂性和业务特征使得数据可靠性受到严重挑战,需要采用更强的数据保护技
A、B组均设个人全能赛和团体赛两种。C组只设个人全能赛,不设团体赛。
随着万维网的不断发展,与日俱增的Web信息给人们带来丰富的资源,但同时也导致人们无法通过自动化手段比较准确地获取自己所需的内容。语义网便是应对该问题的产物,促使计算机
社会保险费是社会保障制度的重要内容,也是公共财政的重要组成部分。2000年陕西省的社会保险费开始由地税部门征收,做好社保费费源普查工作是提升社保费征收效能的基础。开发设
于矮生百慕大草坪当中交播多年生黑麦草籽,可以确保草坪达到四季常绿的效果。人们在实践过程中发现,交播所用草籽的处理方式以及交播用量之间存在差异,最终达到的后期效果也
图像融合涉及信息融合、传感器、图像处理等多个领域,是一个新兴的研究方向。在图像融合研究领域中,如何高效地表示和分析图像是其中的一项核心问题。图像表示方法的有效性直接