关系数据库CoDB中稀疏数据管理机制的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:jasonzhong414
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
稀疏数据是指包含大量空值的数据,具有维度高、稀疏、模式易变等特点。稀疏数据在实际应用中的大量出现给现代的RDBMS带来了巨大的挑战。在各类海量数据管理系统中,如何设计稀疏数据的高效存储并支持快速查询和有效管理,是目前受到广泛关注的一个研究问题。近年来,数据库的重要国际会议SIGMOD、VLDB等不断出现了许多重要的研究文献。 针对稀疏数据给RDBMS带来的挑战,本文在深入分析国外相关研究工作的基础上,提出了一种新的在RDBMS上存储、管理稀疏数据的机制。本文的主要工作有: 1、针对稀疏数据的特点,从关系数据库的存储层入手,设计了一种新的RDBMS上的记录存储格式“属性索引格式”,大大提高了稀疏数据存储的空间和时间效率。理论分析和实验验证均表明,本文提出的方法可以高效的支持稀疏数据的存储和查询,是一种有效的解决稀疏数据存储与查询的方法。 2、针对稀疏数据的特点,将RDBMS中部分索引的概念应用于稀疏表中,设计了稀疏表上的稀疏索引,在不明显降低索引适用范围的前提下大大提高了稀疏表上索引维护的效率和索引扫描的效率。 3、设计了部分属性检索的查询方式,允许用户使用部分属性书写查询语句,降低了用户在高维度的稀疏表上书写查询语句的困难。对实际数据的分析结果表明,该方法是一种有效的帮助用户构建查询的方法。 本文提出的稀疏数据管理机制已经成功的在北京大学研制的国产数据库CoDB上实现。通过在真实数据集和模拟数据集上的一系列实验证明,本文提出的方法在不降低数据库整体性能的前提下,可以高效的处理稀疏数据的存储和查询,有效的帮助用户构建稀疏数据上的查询,是一种有效的解决稀疏数据管理的方法。
其他文献
Internet高速发展使人们越来越依赖于通过互联网获取各种信息,CNNIC的最新报告显示互联网第一入口是即时通信的比例是39.7%,看新闻则以20%居第二。新闻信息本身具有数量大、增长
随着经济活动的不断发展,人们对道路交通系统的依赖越来越强,交通拥堵(trafficcongestion)成为世界各大城市面临的严峻问题。近年来智能交通系统(IntelligentTrafficSystem,ITS)
细分曲面作为一种几何外形表示方法,具有交互直观、整体光滑、任意拓扑等优势,在影视特效、三维游戏和数字媒体内容创作等行业中得到了广泛的应用。细分曲面是递归定义的,这与当
如今,软件系统的复杂度越来越大,而对软件系统的可靠性、时效性的要求也越来越高。如何在保证软件产品质量的前提下有效控制产品的开发和维护成本,是企业提升市场竞争力的关键。
如今,随着计算机和互联网的蓬勃发展,给人类的生活带来了革命性的变化。而不论是计算机基础应用还是互联网,表示和查找已经成为大多数计算机应用的核心。BloomFilter是一种空间
近年来,随着传感器网络和RFID技术的发展,基于数据流的应用已经无所不在。数据流上的应用大多是监控型的,并且这些监控任务一般是简单事件的组合,但简单的数据流管理系统(DSMS)一
随着定位技术的普及和无线传输技术的发展,大量轨迹数据正以各种方式快速产生和收集起来,并被广泛用于基于位置的服务(LBS)、无人驾驶、动物行为研究、气象预测和城市规划等领
特征的表达和融合是计算机视觉算法中的两个重要部分。例如,在基于骨架的人体行为识别中,如何表达三维骨架的几何关系对于行为识别效果有至关重要的影响。然而很多现有的研究都
文本倾向性分析是自然语言处理一个十分重要的问题,在信息过滤,电子商务,观点搜索,自动问答等领域具有广泛的应用场景。 本文主要考察句子一级的观点自动抽取和倾向性自动识别
博客是一种基于RSS技术的信息交互平台,目前发展极为迅速。博客作者常常就感兴趣的话题发表文章、做出评论,对感兴趣的其他作者添加为好友,这些特征行为构成了潜在的博客社区。