海量数据压缩、操作和查询处理方法的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:jica330
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展及其在金融、交通、军事、生态环境检测、Web等领域的应用日益深入,海量数据大量涌现,向数据库研究者提出了新的挑战。存储介质的价格/容量比的迅速下降以及数据压缩方法的使用使得海量数据的存储本身并不是问题。问题是:在有效存储海量数据的同时如何有效地处理海量数据上查询以及更新、删除等操作。为此,研究者们开始使用数据压缩技术和数据库技术来研究海量数据的管理问题,产生了压缩数据库技术新研究领域。  本文以现有关系数据库为基础,研究适于数据库数据随机存取方式的数据压缩方法(包括索引压缩方法、海量关系压缩方法和适于特定数据库应用的海量关系压缩方法)、适于压缩数据库的数据操作算法、适于压缩数据库的查询优化方法等。本文的主要研究结果如下:  提出了海量多属性关系的拆分压缩算法。证明了在海量关系中识别频繁属性组合是一个NP完全问题,给出了识别频繁属性组合的贪心算法和遗传算法,证明了拆分压缩方法的完备性,给出了基于拆分压缩的海量关系上的查询处理方法。实验结果表明拆分压缩方法能够有效地压缩海量关系,并有效地提高数据库的整体查询性能。  提出了频率向量索引结构的一种压缩方法,并为其设计了一种有效的存储结构,并对其压缩比进行了理论分析。理论分析和实验结果表明,这种压缩的索引结构能够保证查询结果的完备性并能有效地提高频率向量的存储和查询效率。  针对数据库中海量关系的离线存储特点,给出了海量离线关系的压缩技术并设计了相应的数据操作算法,给出了这种压缩技术在查询处理时性能提高的理论下界。理论分析和实验结果表明,这种压缩技术能有效提高查询海量离线数据的速度。  给出了一个 DNA序列的压缩方法并设计实现了适于该压缩方法的存储结构。该方法能够有效地压缩DNA序列且其解压缩时间是线性的,能够节省DNA序列的存储空间以及下载、传播DNA序列时所需的网络带宽。  给出了压缩多维数据仓库中两个基于BUC思想的IceBerg Cube算法。这两个算法可以在无需解压缩地有效计算Iceberg Cube。算法利用having条件中聚集函数的反单调性避免了大量不必要的计算。算法的输入数据和中间临时数据均以压缩形式存在,计算过程中无需数据解压缩,而且在计算过程中数据量迅速减小。实验结果表明,该算法的性能优于先计算完整 Cube再利用having条件过滤产生Iceberg Cube的方法,且having条件中聚集函数能够有效剪裁掉一些cuboid的计算。  提出通过对查询缓冲池内的查询进行调度,根据查询反馈结果来建立和维护自适应直方图,有效跟踪压缩数据中的热点数据区域、用户查询区域的变化和数据分布的变化,提高了自适应直方图的平均精度。本文还提出了用参数方法来估计数据空间中未被直方图覆盖区域中的查询,并讨论了自适应直方图和参数函数的维护策略。针对压缩海量数据的特征,在真实数据集和人工数据集上进行了大量的实验。实验结果表明,本文的自适应直方图具有较好的平均精度,较快的收敛速度和较强的自适应能力。
其他文献
目前随着计算机信息技术的发展,我们大量地使用关系数据库来管理我们的相关信息,在管理这些信息的过程中,由于关系数据库本身的专业性,使得信息管理人员不可能直接去操纵数据
本课题的任务是为LX-1164 CPU设计相应的总线控制器,对于CPU方向设计支持多处理器并行运算的前端总线;对于外设方向将支持Samsung DDR内存芯片。在本设计中采用了WishBone总
移动计算时代,Wi-Fi等无线接入网络的逐渐成熟,移动终端设备功能的迅速强大,使得P2P网络通信在移动环境中的应用遇到了诸多问题。无线数据广播技术能够有效地解决移动网络通信的
纹理采用任意变化的重复图案描述广泛变化的自然现象。计算机图形学的目标之一就是实现真实感的绘制,因此纹理起着十分重要的作用。但是纹理的多样性使得在一个通用框架下描
近年来,Internet迅猛发展,已遍及到社会的各个领域。但是Internet在带给人们极大便利的同时,也充斥着许多不安全隐患。为了安全的使用网络,需要有平台运行防火墙、入侵检测等程序
数据挖掘是目前数据库和决策支持领域的最前沿的研究领域之一。而粗集方法是数据挖掘中的一个重要方法。入侵检测系统(IDS)是一种从计算机网络或者计算机系统中收集信息并分
本文首先简要介绍了微控制器调试的发展和当前常见的微控制器调试方式,以及Freescale8位微控制器对于调试的支持;然后进行监控程序的总体设计;然后以MC68HC908AP64为目标微控制
为提高分布式系统的可用性,研究者大都在系统中引入冗余,组通信技术是应用最广的一种空间冗余技术,是分布式系统的一个重要研究领域。 组通信中的主动复制技术和被动复制
联机手写字符的采集是指运用字符手写输入设备对规定字符进行采集,字符采集实际上是采集字符书写轨迹的坐标,然后将这些字符书写轨迹的坐标的信息转化为字符内码的过程。随着
Peer-to-Peer(P2P)作为以文件共享为初始目的的应用,允许任意终端用户对等体(Peer)间通过Internet完成文件交换。在P2P应用仅有的短短几年发展时间里,它已成为了占用Internet流