基于概要数据结构的数据流近似查询算法研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:jishunhui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网、物联网和云计算的快速发展,致使数据规模巨大且以流的形式出现,即数据快速、不间断、实时地到达。这种新的数据形式称为流式数据,常产生于网络路由、传感器网络、视频监控以及金融分析等场景。与其它数据形式相比,数据流有着不同特征,如实时性、易失性、突发性、无序性、无限性等。无论在工业界还是学术界数据流处理技术已成为研究热点。虽然传统数据库技术已经得到很好的发展,先存储再计算是传统数据库查询处理技术的主要方式,但可惜的是这种方法难以直接用于处理数据流。数据量大、速度快的特点给数据流处理算法提出了更高要求,有许多经典数据流处理算法往往只需单遍扫描数据集就能满足聚合查询的要求。这些算法常常需要在内存中维护一个尺寸远小于数据集大小的数据结构,这样的概要数据结构通过一次扫描数据集就能近似捕捉数据的特点。  本文详细介绍概要数据结构,剖析其工作原理,对比不同方法之间的优缺点等。同时为了弥补现有算法的缺陷,本文还提出了新的解决方案,新方法在时间复杂度和空间复杂度上都有相应的改善。以下是本文主要研究成果:  (1)针对现有的Count-min Sketch方法内存消耗大、随着数据的增长会出现“饱和”等一些不利因素影响,本文提出了一种更优秀的自适应概要数据结构DCM,它弥补了原有算法的不足并增添了新功能。  (2) q-digest被设计用来捕捉数据分布并完成查询工作。它虽然支持多种操作,但不支持分裂,这就导致其在分布式环境中应用受限,不能充分发挥优势。本文提出了一种不增加额外误差的分裂方法。分裂完成后,如果后续数据继续写入,再次查询所得结果的误差要小于原来结构所产生的误差。  (3)许多商业数据库系统用直方图去概括、总结大量的关系,在查询优化器使用方面能够对查询结果给出高效的估算。近似直方图增量维护方法有一些特点适合应用在数据流环境当中,本文提出了一种基于可分裂q-digest的近似等深直方图增量维护方法。这种新方法比现有方法精度更高,内存空间消耗更小。  在论述完每种方法之后,都有对应的实验来验证新方法与现有算法之间的差异,并且在每个部分最后都对新算法进行了总结。
其他文献
车辆监控定位系统是把全球卫星定位技术、地理信息技术(GIS)和现代通信技术综合在一起的高科技系统。其主要功能是将装有GPS接收机的移动车辆的动态位置(经度、纬度)、时间、
现代制造业的高速发展促使高效率、高精度、大规模的机械设备不断出现,对这些设备的高可靠性要求使对大型机械设备的状态监测与故障诊断方面的研究工作向深度和广度的方向发展
学位
纵观国内外流程行业成本管理的发展趋势,成本的控制管理正朝着信息化方向发展,这就要求企业必须充分利用现代信息技术和先进的成本管理理念来提高成本管理水平,为企业降低成本、
翼伞是具有可操纵性的航空减速器,可以实现精确归航和雀降平稳着陆,是现代化精确空投系统的重要组成部分。随着航空航天科技的发展,针对翼伞在精确空投和设备安全回收等方面的研
本论文工作是围绕自行火炮方向装置的角度位置定位系统展开研究的,作者采用现代控制手段设计了一种先进的自行火炮方向装置角度定位系统,以实现提高自行火炮性能的目的。 论
实时监控系统是一种结合控制技术与计算机技术的综合控制系统,能够实现远程实时控制与数据信息集中管理。通过多种渠道将原本分散不易观测到的数据集中、系统地显示,实时汇总至
随着先进防御设施的发展比如短程武器系统和精密监测措施等,传统反舰导弹在规避拦截方面存在着巨大的挑战。有效的编队控制可以大大提高导弹被检测、识别和截获的难度。这样,突
翼伞是一种前缘有缺口,利用冲压空气维持气动外形的柔性飞行器,具备良好的滑翔性与操控性,因而广泛应用于军事、民用、航天等领域。为提高翼伞归航的准确性,建立翼伞系统动力学模
基于图像序列的三维重构技术是当今热门的研究课题,它可以被应用在许多领域,例如反求工程,机器人视觉,虚拟现实等。三维测量重构技术是反求工程中对物体的三维几何形状进行三维离
学位
地下管线是现代化城市和企业的主要传导设备,重要的基础设施。它们的状态和运行状况直接影响着城市和企业整体运营状况。用非开挖的无损探测技术探测地下管线,可以低成本、高效