面向实时数据流的高效分布式存储与查询算法研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:qinglong21
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
流数据是当前应用系统中广泛存在的一类数据范式。流数据不仅数据量大,还具有实时可见的特征,在刚产生时最有处理价值。近十年来,实时检索流数据的能力已成为云计算、Io T等工业互联网行业的重要研究工作。然而,现有的分布式流处理应用研究仍面临着如下的一些挑战:1)如何减少数据插入系统时引起的索引更新及数据存储开销,充分利用索引构建数据存储模型。2)如何减少新到数据和历史数据合并引起的时间开销。3)如何降低复杂的聚合条件查询的查询时延,充分利用非主键属性构建索引和分布式系统的并行处理能力。针对以上的难题,本文提出了一个高效的分布式解决方案,使得系统能够支持百万条/秒的数据元祖插入工作和毫秒粒度的聚合范围查询。论文的主要工作包括:首先,为了解决数据存储中索引更新及存储时节点分裂带来的性能瓶颈问题,提出一个基于Template B+Tree的索引结构布局方案。同时,设计基于主键和时间属性的数据域划分方法,利用流数据时空特性构建二维区间,将新进数据和历史数据分配到不同组件并行处理,避免了索引的新旧数据合并开销。构建对应数据区间的索引模板,避免了不必要的索引结点分裂时间开销,并充分利用模板索引信息设计存储结构和分组压缩算法,保证了索引的写入和存储效率,从而保证了高并发的数据写入能力。然后,为了实现系统的低延时聚合查询能力,本文提出了有效的非主键多级索引方案。使用数据区域划分和模型的拓扑结构设计,将查询请求解析为独立执行的子查询,并通过多级索引将聚合查询解析为相应的谓词函数,充分利用分布式集群的并发处理资源。为了实现模型的数据局部性和容错性,设计本地缓存算法进行高频数据存储,并基于查询元信息提供了查询故障时的容错恢复能力。最后,本文基于Storm实现了一个分布式流数据处理系统原型,并使用真实数据集进行了系统性能评估。首先评估了基于Template B+Tree的索引结构压缩存储和数据布局容量对系统性能的影响,然后验证了构建多级索引对于查询效率的提高,并最后在系统整体上的数据写入速率和范围查询与先进的数据存储方案HBase,DITIR进行比较。通过在索引开销和聚合查询上的对比实验表明,相比于现有的先进系统,本文模型有着更好的数据插入和查询性能表现。
其他文献
社区养老设施公建民营运行机制的研究,是基于人口老龄化趋势加剧、社区养老设施公建民营实际运行乱的现实问题下提出的。社区养老设施公建民营是未来一定时期内养老服务体系发展的一个方向。研究上海市社区养老设施公建民营运行机制及其特色,对于积极应对人口老龄化、推广社区养老设施公建民营、实现养老服务公益定位、保基本生活以及满足新时代下新需求、新水平、新期待的民生建设具有重要的理论和现实意义。本研究针对上海市社区
锂离子电池因为其具有可充电性、能量密度大、方便携带和环境友好等优点,得到了广泛的研究与应用。目前,商业化的锂离子电池采用石墨作为负极材料,其理论比容量只有372 mAh g-1,已经难以满足现代电子产品发展的需求。自从2000年J-M.Tarascon等人报道了高容量的过渡金属氧化物负极材料以来,过渡金属氧化物材料得到了世界范围内科研人员的广泛关注。采用溶胶凝胶法合成了纳米尺寸的纯相Cu1.3Mn
植入团问题是平均情况复杂性中的一个中心问题。在植入团问题中,给定输入为一个随机图,其中植入了一个大小为k(n)的团,我们需要把这个团找出来;所谓的植入便是随机选取k(n)个
日冕物质抛射(CME)是引起近地环境扰动的主要原因之一。当CME从太阳上抛射并进入行星际空间后,就被称为行星际日冕物质抛射(ICME)。行星际日冕物质抛射(ICME)经由行星际空间传播到地球,使得近地环境在短时间内发生剧烈扰动,对航天航空、卫星导航、远距离输电输油网以及地质勘探等人类活动都会产生巨大影响,甚至影响到国家的安全和经济社会发展。所以提前预测CMEs-ICMEs等空间天气事件的发生,从而
我国有1.8万千米长的大陆海岸线,对近海区水下地形地貌的勘测具有重要现实意义。目前,对近海的主要勘测手段是人工作业方式,工作人员通过划船使用长杆进行采集作业,这种方式
随着空间测量需求的日益增多,空间坐标测量仪器就有了日新月异的发展。所以校准这些空间坐标测量仪器的标准器也应得到补充发展。球棒作为坐标测量机校准规范中提到的期间考核标准器,目前在我国并没有得到广泛应用,主要原因是我国空间坐标测量的校准才刚刚起步,没有一套非常可靠而且稳定的球棒检测装置。通过对比国内外球棒检测装置设计方法的优缺点,借鉴国外激光干涉测量的方法,进行设计改良,研制出一个一维双向高精度测量球
作为我国高等教育的类型之一,高等职业教育在高素质技术技能型人才的培养中占据关键位置。与其他教育类型一样,课堂教学无疑是高职教育人才培养最基本的途径。在理想的课堂画
随着社会发展,医疗体制在不断完善,人们对身体健康越来越重视,我国的老龄化现象也随之愈发严重。遥控操作服务机器人能通过遥控手柄实现远程无线控制,帮助老年人等行动不便人士抓取物体。在遥控操作服务机器人整体设计中,先给出了功能要求与性能指标。然后根据对功能要求与性能指标的分析,给出了遥控操作服务机器人的机械结构和整体控制方案。在硬件设计中,使用树莓派开发板作为遥控操作服务机器人的主控制板。移动底盘使用无
在高等教育的发展中,民办高等教育非常重要,在现代教育中有着不可代替的地位,由于教育越来越普及,国家越来越重视民办教育,但是纵观整个教育情况,还是存在许多问题,因此发展
近年来,伴随着大数据、云计算等技术的快速发展,数据中心网络(Data Center Network,DCN)中的流量呈现出迅速增长的趋势。如何对数据中心网络中的流量进行调度,以提高网络性能