面向键值对存储的范围过滤器研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:changewu1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网时代的到来,数据量呈爆炸性增长,而数据日渐趋向于非结构化。这些新的趋势给数据存储带来了巨大的挑战。而键值对存储系统由于其简单性、高可扩展性以及高吞吐量等特点,表现出了惊人的优势,并日益成为研究的热点。当前的主流键值对存储系统基于写优化的考虑,大多采用LevelDB所采用的LSM树结构[17]。这一结构虽然大大提升了键值对存储的写入性能,但同时也对读操作造成了一定的影响,尤其是对范围查询而言,会造成大量的无效磁盘读取。许多键值对存储系统利用布隆过滤器来提升单点查询的性能,但是,由于布隆过滤器采用了哈希函数,数据的顺序结构被破坏了,因此无法对范围查询过程进行优化,而这也成为了许多键值对存储系统的短板。针对上述问题,本文以提升键值对存储的范围查询效率为目标,提出了一种面向键值对存储系统的范围过滤器。本文的主要贡献如下:1.针对键值对存储系统的特点和需求,设计并实现了一个范围过滤器。该过滤器主体为二叉树结构,每个节点与一个范围相对应,同时叶节点记录是否有键值对落在与其相对应的范围内。通过这一结构即可实现对范围查询的过滤。随后通过理论性能分析,揭示了过滤效果与内存预算之间的关系。在此基础上,为了能够提升过滤效果,更好地处理不同的存储内容和工作负载,为范围过滤器设计实现了动态调整方案,使其主体二叉树能够根据实际的工作负载进行动态生长和收缩,从而提升过滤效果。2.通过实验对范围过滤器性能进行了评估,发现在多数情况下,范围过滤器能够以较小的内存开销,实现较低的范围查询假阳性率,达到较好的过滤效果。针对实验中观察到的长字符串带来的假阳性率偏高的问题,对范围过滤器进行了一系列的优化。结合一些典型的实际应用场景特点,设计并实现了公共前缀处理机制,以及过滤器自主分裂机制。前者通过对键提取公共前缀的方式,缩小了范围过滤器所需处理键的长度;后者通过使范围过滤器动态地进行分片,进一步提升了提取最大公共前缀的效果,针对性地解决了字符串过长的问题。实验结果表明,这些优化能够大大降低范围查询的假阳性率,显著提升过滤效果。
其他文献
在全球变暖的背景下,青藏高原作为全球气候变化最为敏感和脆弱的地区之一,其植被-土地利用-气候之间的关系备受学术界和社会的关注。黄河源区处于青藏高原东北边缘,海拔较高
单体型组装(Haplotype Assembly)是根据测序得到的DNA片段通过各种模型算法来重建出生物个体的单体型。随着人类基因组计划(Human Genome Project,HGP)的逐渐完成,人们已经认
日冕物质抛射(CME)是引起磁暴的主要原因之一。CME经过行星际空间传播到地球,使得地球磁场在短时间内发生剧烈扰动,对人类的航天航空以及卫星导航、远距离输电输油网、地质勘
Gumbel分布是极值分布的主要类型之一,极值分析的主要目的之一是估计分位数xp.在水文统计中,称xp为重现期是T=1/1-p的重现水平;在风险管理中,xp为VaR,表示在未来某一特定的一
近几年,随着人工智能在我国的迅速发展,智慧城市背景下的无人驾驶与机器人研究成为新的研究热点,视觉SLAM(Simultaneous Localization and Mapping,SLAM)正是该领域十分重要
3D打印技术的兴起促进了制造业的发展,广泛的应用领域促使其核心技术的研究成为科研热点。其中光固化3D打印技术应用于薄壁类零件模型制造时,常因3D打印模型位置摆放不定而造
传统机械制造过程中,加工零件的质量检测通常采用人工检测,不仅影响检测速度和生产效率,且可能因采用抽检和检测者主观因素干扰而影响检测结果的准确性。随着自动化智能化技
图像超分辨率重构指的是将给定的低分辨率图像,通过特定的算法,增加高频细节信息,提升空间分辨率和清晰度,生成对应的高分辨率图像。目前,基于深度学习的图像超分辨率算法能
随着网络信息技术的快速发展,各类用户数据呈现爆炸式的增长,各种大数据分析技术在给人们的生活带来便利的同时,也给用户隐私保护带来了严重威胁。差分隐私保护技术为解决用
煤层气开采多采用“U型水平井”的开采方式,而玻璃钢作为新型完井管材正被广泛应用于煤层气井水平段完井施工。与常规的钢制套管相比,非金属材质的玻璃钢套管既能保证自身强