论文部分内容阅读
稀疏数据是指包含大量空值的数据,具有维度高、稀疏、模式易变等特点。稀疏数据在实际应用中的大量出现给现代的RDBMS带来了巨大的挑战。在各类海量数据管理系统中,如何设计稀疏数据的高效存储并支持快速查询和有效管理,是目前受到广泛关注的一个研究问题。近年来,数据库的重要国际会议SIGMOD、VLDB等不断出现了许多重要的研究文献。
针对稀疏数据给RDBMS带来的挑战,本文在深入分析国外相关研究工作的基础上,提出了一种新的在RDBMS上存储、管理稀疏数据的机制。本文的主要工作有:
1、针对稀疏数据的特点,从关系数据库的存储层入手,设计了一种新的RDBMS上的记录存储格式“属性索引格式”,大大提高了稀疏数据存储的空间和时间效率。理论分析和实验验证均表明,本文提出的方法可以高效的支持稀疏数据的存储和查询,是一种有效的解决稀疏数据存储与查询的方法。
2、针对稀疏数据的特点,将RDBMS中部分索引的概念应用于稀疏表中,设计了稀疏表上的稀疏索引,在不明显降低索引适用范围的前提下大大提高了稀疏表上索引维护的效率和索引扫描的效率。
3、设计了部分属性检索的查询方式,允许用户使用部分属性书写查询语句,降低了用户在高维度的稀疏表上书写查询语句的困难。对实际数据的分析结果表明,该方法是一种有效的帮助用户构建查询的方法。
本文提出的稀疏数据管理机制已经成功的在北京大学研制的国产数据库CoDB上实现。通过在真实数据集和模拟数据集上的一系列实验证明,本文提出的方法在不降低数据库整体性能的前提下,可以高效的处理稀疏数据的存储和查询,有效的帮助用户构建稀疏数据上的查询,是一种有效的解决稀疏数据管理的方法。