论文部分内容阅读
数据库的压缩技术是数据压缩领域的一个重要研究分支。传统的数据库压缩方法基本都是按照流模式对数据库进行压缩处理,未考虑数据库数据的冗余分布,也没有考虑压缩后数据的存储规律问题,针对这一状况本文在分析了传统数据库压缩方法的基础上,并从元组角度出发,将聚类算法引入数据库压缩,提出了一种基于元组聚类的数据库压缩方法,并对该方法进行了较为深入的研究,所做的主要工作及取得的成果主要体现在以下几个方面:首先,构建了基于元组聚类的数据库压缩机制,设计了基于元组聚类的数据库压缩体系结构,将数据库的压缩过程分解为两个相对独立的阶段,先通过元组聚类将数据元组按照冗余度高低进行分组,在分组的基础上再进行元组压缩。其次,考虑到关系数据库的实际情况为了使K-means聚类算法能够运用于数据库元组的聚类,对K-means算法的初始条件进行了优化改进,提出并设计了聚类代价函数并给出了优化k值的优化算法,改进了K-means算法的初始中心元组的生成算法,使得到的初始中心元组更适合于数据库的元组压缩。再次,在元组聚类的基础上,提出了组中心的参照模式,依据参照关系将聚类组中的元组联系起来,在此基础上设计了一种数据库元组级别的差分压缩算法,对数据库中的元组数据进行压缩,并利用参照关系,对压缩后的数据采用参照树模式进行存储,定义了参照树存储的相关操作,同时保留了参照关系及数据库的相关信息以便于解压缩。