基于列数据库存储稀疏数据压缩算法的研究

来源 :天津师范大学 | 被引量 : 7次 | 上传用户:sccdxlxsq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据仓库、决策支持等OLAP技术的广泛应用,数据库系统对执行引擎查询效率的要求越来越高,因此人们提出了一种的新的数据库系统设计理念,即以列为基本存储单位的列存储数据库系统。本文首先将列存储数据库系统与行存储数据库系统之间在存储结构、查询效率上进行对比,得出列存储数据库系统在查询执行效率上优于行存储数据库系统的结论。研究了列存储数据库系统中的所适宜采用的字典编码、行程编码以及位向量编码等压缩技术。通过分析查询过程中不同属性列连接的时机的特点,研究后物化技术对于列存储数据库系统查询效率的影响,并进一步研究采取直接访问压缩态数据的策略对数据库系统性能的影响。‘结合列存储数据库系统与稀疏数据自身的特点,本文提出了一种列存储数据库系统适宜存储稀疏数据的观点,并给出稀疏数据库的设计方式。通过研究稀疏数据的应用场景,分析稀疏数据的存储结构特点,给出稀疏数据库常见的数据模型。最后本文着重研究了字典编码压缩算法中的Lempel-Ziv,分析并比较其两种分支算法LZ77和LZ78各自的优缺点,提出了一种基于LZ77和LZ78算法的改进算法,以便利用两者各自的优点提高算法的性能。进而通过实验,将改进后的算法在压缩率和压缩时间上与LZ77和LZ78算法相比较,得出改进后算法在整体上的性能优于LZ77和LZ78。
其他文献
文物保护一直是各个国家的工作重点之一,文化遗产的发扬与传承关乎整个民族的存在和发展。在中国数千年的文化中,对古文字或图案的研究是重中之重,甲骨文、碑文、鼎文等形态各异
21世纪以来,随着信息技术的不断革新和通信技术的飞速发展,人类社会已经步入了真正的信息时代。尤其是互联网的迅速发展,给人们带来了丰富的资源和极大的便利,同时也潜伏着各
随着互联网的普及和发展,电子商务逐渐融入到人们的日常生活中,人们可以足不出户的买到自己想要的产品。但是电子商务网站上存在大量的商品信息,客户在纷繁的商品中寻找有用
在互联网蓬勃发展的今天,互联网上的信息更是浩如烟海。人们在享受互联网带来的便利的同时,却面临着一个如何在如此海量的内容中准确、快捷地找到自己所需要的信息的问题,由
近年来随着计算机技术的进步,图形处理方法的提高,加之新的拍摄技术的出现使得影视动画制作成本提高的同时,其商业回报也越来越高。对于美国魔幻史诗《指环王》三部曲,观众不仅为
随着油田的发展以及工业自动化水平的提高,利用现代计算机设备、通信网络技术对设备进行数据的远距离采集和监控的方式得到了广泛运用。在油田及其他工业领域经常通过有线的
近年来,因特网难以置信的飞速发展,使得web成为一个巨大、分布广泛、全球性的信息中心。在这个分布式信息空间中蕴涵着具有巨大潜在价值的知识,如何从海量信息中快速有效的获得
多秘密共享是密码学技术一个很重要的研究方向,它为重要信息的安全保存和合法利用提供了一种有效的途径,是信息安全方向的研究热点。利用它保管秘密,不但能防止权力过分集中
GML(Geography Markup Language)是一种用于描述现实世界中地理对象的标识语言。基于World Wide Web Consortium(W3C)提出的更宽泛的。Internet标准,GML以一种可以在互联网上
无线多媒体传感器网络(WMSNs)是在传统无线传感器网络(WSNs)的基础上发展起来的具有音频、视频、图像等多媒体信息感知功能的新型传感器网络。同只具有简单环境数据采集功能