基于BAP的数据压缩、操作与查询处理系统的实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:ncufox
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展及其在金融、交通、军事、生态环境检测、Web等领域的应用日益深入,海量数据大量涌现,这就要求数据库管理系统能够存储和处理上G、上T、甚至上P的海量数据。存储介质的价格/容量比的迅速下降使得海量数据的存储本身并不是问题,问题是如何有效存储和管理海量数据,并高效地支持上层查询处理。海量高频度数据中存在着大量的数据冗余,即同一数值会在同一属性列中多次出现。这不仅浪费了存储空间,也大大降低了查询效率。利用压缩数据库技术可以有效节省存储空间和I/O带宽。压缩数据库技术的研究内容包括:数据压缩算法以及压缩数据上的数据操作算法。近来,智能决策支持、在线智能商务以及数据仓库等新应用的出现要求数据库管理系统更好地适应主要面向数据读取应用的新特点。针对这个特点,数据库研究者们进一步审视传统数据库管理系统面向行存储的机制,开始研究并重新架构面向列存储的数据库管理系统。显然,面向列存储对于只读查询来说,因为仅仅从磁盘上读取与查询相关的属性列数据而不是整个元组的数据而大大节省了磁盘I/O。本文以现有关系数据库为基础,主要研究了适合于海量高频度关系数据的压缩算法以及存储结构和适合于压缩数据上的查询处理技术,包括数据操作算法和查询优化策略。本文的主要研究结果如下:提出了适合海量高频度关系数据的无损压缩存储算法TIDC。TIDC是一种基于属性划分的面向列存储的数据压缩方法。它通过整列数据的位置信息(TupleID)把按列存储的各属性列联系起来。对每一属性列的数据用其位置信息和相应的非常量值进行存储,实现了原始数据和压缩后数据的完全映射,有效去除常量数据,能够进行不解压(回算)而直接查询,达到了压缩存储、提高查询效率的目的。针对TIDC压缩存储策略提出了相应的数据操作算法包括选择、投影和连接,并给出了TIDC压缩数据上查询的部分优化策略。实现了BAP方法的压缩存储算法,给出了BAP压缩方法的数据操作算法包括选择、投影和连接,同时给出了部分查询优化策略。根据TIDC和BAP压缩存储方法的特点,设计并实现了一个海量高频度关系数据压缩存储原型系统。理论分析和初步实验表明:通过对原始数据进行属性划分,按列压缩存储,可以有效地减少存储空间,节省磁盘I/O,明显提高查询效率,而且,TIDC查询效率受数据量增加的影响不大。
其他文献
随着网络规模在全球的迅猛发展,Internet上的信息资料目前在以爆炸性的趋势增长,网上的Deep Web站点越来越多,并且还在迅速地增长。Deep Web数据库通过查询接口向用户提供信
随着分布式系统的广泛发展和应用,资源分配问题也越来越突出。传统的资源分配方法大多采用工程控制手段,通过进行全局的计算,将资源分配到最适合的地方。这种分配方法在单系
网格互连型SIMD数据并行计算机具有高速计算能力,在高性能计算机领域有着举足轻重的作用,已经广泛的应用在国民经济、国防、科研等领域。随着网格互连型SIMD计算机的迅速发展
图像编解码是图像处理领域的重要研究课题之一。借助高性能的图像编解码算法,能够使得大规模的图像数据在有限存储空间中的存储以及有限带宽上的传输成为可能。虽然图像压缩
作为挖掘隐藏于海量数据中有价值知识的数据挖掘技术,自20世纪80年代后期提出以来发展迅猛,现在广泛应用于商业、电信、金融、生物学等领域。其中分类技术作为数据挖掘的一个研
滤波器的设计可采用能精确实现传输函数对技术指标近似的方法。传输函数的实现方法很多,如联立电路节点电压电流方程组求解电压比转移函数的方法、实现策动点函数的方法等。这
工作流是计算机支持的业务过程的自动化执行。企业面临越来越激烈的市场竞争,其业务过程需要不断地调整、优化,在企业办公自动化系统中采用柔性工作流引擎技术势在必行。 本
随着神经科学、计算机技术、信号处理技术的高速发展,神经接口(NeuralInterface)的研究成为了当前的研究热点。神经接口是神经系统与外界环境交互的一种通道,外界的信息经NI
WiMAX是一项基于IEEE 802.16标准的宽带无线接入城域网技术,是一种全IP的开放平台结构。国际电信联盟(ITU)己批准移动WiMAX成为全球第四大3G标准。   但由于无线传输信道的
网格提供了在动态的多机构的虚拟组织中能够实现资源共享和协同工作的环境。利用网格技术可以有效实现所有的资源共享,包括计算资源、数据资源、服务资源等。建立生物网格计算