【摘 要】
:
随着大数据时代的到来,企业积累的数据程爆炸式增长。并且企业又需要根据这些海量的历史数据做决策,OLAP的出现使对大数据的处理变得简单了许多。然而受数据的海量化和高维化
论文部分内容阅读
随着大数据时代的到来,企业积累的数据程爆炸式增长。并且企业又需要根据这些海量的历史数据做决策,OLAP的出现使对大数据的处理变得简单了许多。然而受数据的海量化和高维化影响,OLAP技术在计算和存储方面仍然面临严峻的挑战,分布式环境下的处理方式只是缓解上述挑战。为了提高大数据的查询效率,出现了数据立方体。然而其构建时间和存储空间开销特别大。为了解决这一问题,后来出现了一种有效的无损压缩技术—封闭数据立方体。但是封闭数据立方体缺少灵活,其聚集往往只支持一类查询,封闭直方图数据立方体使立方体的灵活性有了较大的提高。本文在现有压缩方法的基础上提出了一种新的压缩方法,对封闭直方图数据立方体的存储结构进行优化。将派生出来的封闭元组和生成该封闭元组的基本元组中编号最小的元组存放在一起,并且只存储该封闭元组对应的度量值和封闭元组编码,这样将一个封闭元组用一个整数表示,有效的降低了存储空间。本文采用已有的计数倒转的压缩方法对度量值向量进行处理,使之满足近似查询,从而减小度量值向量部分的开销。并且本文改进了计算封闭直方图数据立方体的MRC-Cubing算法,使其对All元组和基本元组的计算变得简单高效,并提出了对超大封闭元组的计算策略,均衡了各个任务的负载。构建封闭直方图数据立方体在时间上是一种很大的开销,因此希望将新数据快速融入立方体中。本文对增量更新中分析已有的封闭立方体所带来的收益与代价,提出了分布式增量更新的两种方案。一种是将新数据直接和已有立方体合并,另一种是将两个立方体合并。这两种方法与重新计算立方体相比都节省了大量的时间。用户可以根据自己的需要来选择使用哪种增量更新的方法。为了加速封闭直方图数据立方体的查询,本文提出了基于倒排索引的MapReduce查询,在数据量较大时能够有效的提高查询速度。为了实现对封闭直方图数据立方体的在线近实时查询,采用HBase作为直方图立方体和其索引的存储平台,并结合查询键、查询码以及倒排索引实现快速交互式查询。本文在TPC-DS测试数据集上通过实验证明了:对数据立方的压缩情况,以及增量更新相对于重新计算的优势和查询算法及实现的相对于以前查询算法的高效性。
其他文献
当下,我国交通建设设施正在不断发展与壮大,在隧道、轻轨、高铁的建设上尤为突出。总的来说,在公路隧道的修建上呈现出:越修越多、越修越难、越修越长、越修越深的状况。因此公路隧道的设计跟施工要更精益求精,为更好的解决修建公路隧道所要遇到的问题,对开挖隧道围岩的级别以及围岩稳定性的分析就尤为重要。本文以云南西山营隧道项目为依托,应用围岩质量分级修正[BQ]法对围岩进行分级,结合改进层次分析法和可拓学评价相
目的分析嗜铬细胞瘤/副神经节瘤(PPGL)的临床表现、诊断方法、术中血压及术后随访情况,探究PPGL诊断及治疗的影响因素,提高临床医师对PPGL的认识水平,降低该病漏诊率及死亡率。方法回顾性分析天津医科大学总医院病房自2015年1月至2019年12月病理诊断为PPGL的141例患者的病历资料,分析PPGL患者主要临床表现、相关生化及影像学检查、治疗方案和随访情况,对比小直径组与大直径组、典型症状组
随着以互联网为代表的信息网络和移动计算技术的发展,空间数据资源出现了爆炸式的增长和累积,如何利用云计算技术对这类数据进行高效的空间连接查询处理,已成为当前空间数据
郑天挺,中国近代著名史学家,史学成果卓著,尤以明清史研究蜚声中外,是孟森之后将该领域研究推进到新境界的代表人物。以往研究多关注郑氏的明清史研究。近年来,《郑天挺西南联大日记》、《郑天挺隋唐五代史讲义》、《郑天挺元史讲义》、《郑天挺明史讲义》等珍贵文献的出版,拓展了学界对郑天挺学术旨趣的认知,展现了郑氏在隋唐史、元史等领域的众多建树,由此为中国史学界系统认识郑天挺学术提供了新的空间。七七事变后,郑天
随着科学技术的迅速发展,为了有效处理出现在众多领域中的数据量的爆炸式增长问题,云计算相关技术有了长足的发展,并在相关领域发挥了重要的作用。在处理数据密集型应用的过
微分方程是现代数学的一个重要分支,是人们解决各种实际问题的有效工具,它在几何、力学、物理、化学、电子技术、自动控制、航天、生命科学、经济学等领域都有着广泛的应用.
水雾是泄洪雾化的一种形式,其扩散结果直接与水雾空间分布有关,并与环境的温度和湿度密切相关。本文基于WRF数值模式、CALMET诊断风场模式和CALPUFF三维非稳态拉格朗日模型,针对水电站泄洪水雾扩散进行了深入研究,主要研究内容可分为以下三个方面:(1)建立WRF/CALPUFF泄洪水雾扩散模型。根据雾源产生机理的不同,将泄洪水雾扩散的雾源概化为水平方向的线源,完善了水气两相流的挑流水舌运动微分方
自嘲诗作为中国古典文学发展史上一种渊源有自的文学题材,具有其独特的生成背景与文化意义。陆游一生创作了大量的自嘲诗,相当一部分都反映了诗人深沉的主体忧思、崇高的家国情怀以及独特的生命意识。中国古典诗歌领域中的自嘲诗在成熟过程中形成了清晰的纵向发展谱系,《诗经》《左传》及诸子百家作品中的嘲谑色彩尤其是自嘲意识是其渊源所在,汉魏六朝带有强烈自嘲意识的俳谐赋与嘲诮诗之兴盛则为自嘲诗的兴起提供了直接的取法对
三维游戏引擎的出现是游戏开发的重大技术突破,它作为三维游戏的技术核心,充分利用了计算机软硬件的资源,使得原本复杂的三维游戏开发过程变得高效快捷。使用了三维游戏引擎
随着人工智能的蓬勃发展,人工神经网络作为人工智能的重要分支一直受到国内外学者的热切关注,神经计算学作为人工神经网络的基础学科,对人工神经网络发展有着重要的推动作用