云环境下直方图立方压缩存储与增量更新及查询研究与实现

来源 :东北大学 | 被引量 : 1次 | 上传用户:linxuekai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据和云计算时代到来,像联机分析处理(On Line Analytical Processing, OLAP)这种需要大量计算和存储开销的问题变得简单许多。然而受数据海量化和高维化影响,OLAP技术在计算和存储方面仍然面临严峻的挑战,分布式环境下的处理方式只是缓解上述挑战。本文提出了直方图数据立方体的压缩架构,分别从直方数据图立方体的底层存储结构,内容压缩,整体压缩三个方面进行了优化处理。首先底层存储结构上,本文基于直方图数据立方体和封闭数据立方体技术对于直方图数据立方体的存储结构进行改进,提出了封闭元祖+直方图的底层存储结构;内容压缩上,本文根据直方图数据立方体的统计结构信息提出计数倒转的压缩方法;整体压缩上,本文借用文件压缩进一步压缩直方图数据立方体;综合上述三种压缩技术,本文实现了对直方图数据立方体的高效压缩。构建数据立方体在时间上是一种很大的开销,前人大多都是在研究如何用尽可能少的时间构建一个完全数据立方体,而数据立方体是面向企业应用的,企业会有不断的新数据需要累加到数据立方体中。本文对数据立方体增量更新的收益与代价进行了分析研究,对数据立方体增量构建方法进行了探索,本文提出了封闭数据立方体增量更新时没有删除只有增加和更新的规律,并在MapReduce分布式环境下实现了MRC-IncreUp算法。封闭数据立方体的查询实现才是OLAP的最终目的,本文提出了基于查询键的直接查询和基于封闭原则编码分类的分类查询,另外为了实现交互式查询,本文引入了Impala大数据实时查询系统,并提出了利用Impala系统完成交互式查询的架构和查询优化策略。本文在TPC-DS测试数据集上通过实验证明了:对数据立方的压缩情况,以及增量更新相对于重新计算的优势和查询算法及实现的相对于以前查询算法的高效性。
其他文献
随着互联网的迅速普及和相关技术的快速发展,互联网在人们的工作和生活过程中占据着越来越重要的位置,同时网络安全问题也变得越来越严重,网络安全事件的爆发频率逐年上升,其
网格计算就是指通过高速网络把分散在各处的硬件、软件、信息资源连接成一个巨大的整体,从而使得人们能够利用地理上分散于各处的资源,完成各种大规模的、复杂的计算和数据处理
随着计算机及互联网络技术的迅速发展,网上文本的数量成指数级增长,如何帮助用户高效准确地从这些海量信息中获取有用的信息是当前迫切需要解决的问题。因此,Web文本信息检索成
随着云计算技术的普及和流行,Hadoop系统成为更多用户处理大批量数据的选择。在Hadoop系统中,资源管理问题一直是该领域的研究热点问题之一。有效的资源管理,通过对资源的合
自然界中存在的大量复杂系统都可以通过复杂网络加以描述,而社团结构是继小世界特性和无标度特性之后发现的最为重要的复杂网络特性。社团是网络中关联紧密的一群节点,往往具
随着嵌入式技术的发展,嵌入式应用的不断增长以及嵌入式系统复杂性不断提高,要求嵌入式软件的规模和复杂性也不断提高,嵌入式软件的质量和开发周期对产品的最终质量和上市时间起
互联网的迅速发展和广泛普及导致网上信息爆炸性增长。如何在庞大的互联网上获得有价值的信息已成为网民日益关注的问题。 搜索引擎是一种用于帮助因特网用户查询信息的搜
P2P通信作为一种新型的网络连接技术,可以在不同的节点之间,在不经过中继设备的情况下,直接交换数据和服务,它允许Internet节点直接使用对方的文件,每个人可以直接连接到其他节点
随着多媒体技术和计算机网络的快速发展,数字媒体的制作和传播变得更加方便和快捷。这简化了作品的交易过程,加快了作品的流通速度,同时也扩大了作品的影响范围。但是它也带来了
随着通信技术的快速发展,第三代移动通信系统不仅要提供语音业务,还要提供数据、图像、视频等业务,由于各种业务的传输速率和服务质量的要求不同,使得第三代移动通信系统中的呼叫