数据依赖的LSM-tree研究

来源 :宁波大学 | 被引量 : 0次 | 上传用户:xiaoyuerhaha
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据环境下写多读少的场景日益增多,非结构化数据的比例也逐渐提升,越来越多的企业采用KV数据库来代替传统的关系型数据库。LSM-tree(Log-Structed-MergeTree,日志结构合并树,后文统称LSM树)由于其出色的写入性能,被众多KV数据库采用作为底层存储引擎。尽管KV数据库在数据存储规模、可扩展性上均有着传统数据库无法比拟的优势,但依然面临着数据爆炸式增长带来的存取压力。目前大多数针对LSM树的改进并未利用到数据的特性,这在一定程度上浪费了数据本身所携带的分布信息。本文将利用数据依赖的方式改进LSM树的读写性能,使其在大数据存储领域更具有存取时间和存储空间上的优势。本文的主要研究内容与贡献如下:1)基于数据依赖的LSM树读取性能优化LSM树中布隆过滤器常用于减少无效的磁盘I/O,加速读取过程。但是用户无法无限制地细化布隆过滤器的粒度,原因是在一些数据量庞大而数据项较小的工作流中,这些元数据需要占用大量存储空间。在一些内存受限的环境下,内存缓冲区无法容纳更多的过滤器数据,造成缓冲区与磁盘的频繁数据交换。针对上述问题本文提出LSM树中的异构布隆过滤器方案(Heterogeneous Bloom Filter Scheme in LSM-tree,HBF-LSM),在LSM树的每一层维护热度预测模型,新生成的SSTable通过预测的热度来分配不同粒度的布隆过滤器,然后使用特定缓存管理方案来维护缓存中的过滤器数据并处理工作流热度发生改变的情况。实验证明本文的方案在保持同样外存占用与内存消耗的情况下,提高了LSM树在不同配置工作流下的读取吞吐量(小型数据库提高约25%,大型数据库约53%)。2)基于数据依赖的LSM树写入性能优化LSM树中较高的写入放大一直是难以解决的问题。原因是在传统LSM树结构设计中不考虑数据热度情况,设计空间一般无法兼顾读写性能,即需要在用户可接受的范围内牺牲一种性能以提高另外一种性能。在提升LSM树写入性能时,只能在设计空间中保守地选择设计方案以减少对读取性能的影响,导致写入性能提升有限。针对上述问题本文提出一种结合数据读取热度的新的LSM树结构(Leveling-Tiering-Grouped LSM-tree,LTG-LSM),在LSM树的每一层维护热度预测模型,新生成的磁盘组件通过预测的热度来确定使用的结构,然后使用特定合并算法来处理不同结构组件之间的合并以及处理工作流热度发生改变的情况。实验证明本文的方案在不牺牲读取性能的前提下,大幅度降低了LSM树的写入放大(最高降低约71%),提高了LSM树在不同工作流下的写入吞吐量(最高提升约24%)。
其他文献
如今,2μm超短脉冲光纤激光正朝着高强度和窄脉宽的方向发展,采用啁啾脉冲放大的方式来实现超短脉冲激光峰值功率的极大提升是当前的主流技术之一。脉冲展宽器是啁啾脉冲放大系统中的重要器件,尽管目前空间型2μm波长脉冲展宽器发展已相对成熟,但在如今追求全光纤化激光系统的趋势下,材料和光纤是依然是目前限制2μm全光纤系统的关键因素。经过特殊结构设计的石英光纤展宽器虽使用方便,但是单位长度的光纤提供的色散量相
学位
硫系光纤因其中远红外波段出色的透过特性,使其在红外激光光电对抗、光纤传像束、激光医疗等诸多领域具有巨大的应用潜力。其中以单模硫系光纤最受关注,这是由于单模光纤中只传输基模,光强分布接近于高斯分布,并且无模间色散,在长距离的激光传输和光束控制方面存在巨大优势。人们追求高质量单模硫系光纤的脚步从未停止过,但是受成型工艺条件限制,光纤制备过程中引入的材料或结构缺陷始终影响着光纤的整体性能。因此,亟需提高
学位
基于视觉的同步定位与地图构建(Simultaneous Localization and Mapping,SLAM)技术是当前机器人导航、自动驾驶等领域的研究热点,但是目前视觉SLAM的研究大多为基于静态环境下的假设,当场景中出现动态物体时,系统的精度和鲁棒性则难以保障,此外,构建出的地图往往会有移动物体重影。针对以上问题,本文在经典的ORB-SLAM2基础上,研究并设计了一种面向动态物体场景的视
学位
推荐系统作为解决“信息过载”问题的有效方法,推动了包括电商在内的众多领域的发展,序列推荐作为其中一类重要的方法,旨在建模用户动态行为偏好,预测其下一次可能的交互行为。近年来,基于各类深度学习方法的序列推荐算法喷涌而出,极大提升了推荐系统的推荐效果。现有序列推荐算法仅从项目间相对时序关系中挖掘项目间的关联,忽略了其真实交互时间信息的探索与利用;此外,该类算法还存在项目间高阶复杂关系挖掘不充分、辅助信
学位
随着网络规模的剧增,高速、无线、数据中心、卫星网络的逐渐普及,用户对网络的需求越来越多,而用户的需求使得应用趋于多样化、复杂化,这给TCP的传输质量带来了较大挑战。拥塞控制算法作为TCP的重要组成部分,对其性能有着较大的影响。低优先级拥塞控制算法主要承载大文件传输、应用更新等的非交互应用流,此类应用常常以背景流的形式存在于网络中,能够有效改善交互式实时性应用流的传输性能。然而在实际的网络中,低优先
学位
传统语音分离算法的数学建模有很大的局限性,导致其在复杂环境下,比如低信噪比和非平稳噪声等情况下,语音分离效果不理想,无法满足各种实际场景中的应用。而基于深度学习的语音分离算法通过对带噪语音信号与目标语音信号之间的非线性映射关系进行学习训练,因而能够极大的改善在复杂环境下的语音质量。本文主要通过充分利用门控循环单元网络(Gated Recurrent Unit,GRU)的结构优势来提高语音分离的性能
学位
近年来,视网膜疾病是最重要的公共健康问题之一。分析视网膜图像中丰富的病变信息对预防和诊断相关的视网膜疾病有着重大意义。视网膜血管的形态特征如角度、分支、长度、宽度和曲折度在分析视网膜图像的各种特征中有着关键作用,因此对视网膜血管的准确分割非常重要。然而即使经验丰富的专家通过手动方法对视网膜图像进行血管标注也是容易出错并且耗时的,因此,建立模型准确地自动分割血管至关重要。此外,一幅合格的视网膜图像是
学位
生成对抗网络是一种无监督学习的深度学习模型,已广泛地应用于人脸合成、图像风格迁移、图像修复、高分辨率图像生成等计算机视觉领域。但是传统的生成对抗网络无法完成训练集较小的生成任务,而结合半监督学习的生成对抗网络不仅可以扩充训练样本量,而且能增强模型的鲁棒性。中国书法是中国的特色文化艺术,是中华民族的象征性符号。在书法漫长的演变岁月里留下过很多精彩绝伦的书法作品,然而这些作品中保存下的书法汉字十分有限
学位
深度学习在语音识别领域的快速发展,使得语音识别系统的准确性和实时性得到了巨大的提升。近年来,市场上涌现出了类型种类众多的智能语音产品,例如带语音助手的智能手机和具有语音控制功能的智能家居等。近年来有研究表明深度学习容易遭到对抗样本的攻击,误导语音识别系统做出错误的翻译或攻击者指定的翻译,且此类攻击很难被人类察觉。尽管如此,对抗样本的研究也有助于提高深度学习的安全性。目前的语音识别领域的对抗样本攻击
学位
随着互联网的发展,数据呈现出爆炸式的增长,许多有应用价值的信息蕴含在冗余繁杂的数据当中,如何充分挖掘这些数据,一直都是计算机领域研究的热点问题。同时,由于人的社会性,图会随着时间的推进呈现出一定的演化趋势,这为问题的解决增加了一定的难度。近年来,基于图卷积的数据挖掘引起了研究者的广泛关注,图卷积是卷积神经网络在图上的扩展,它不仅能提取深层次的特征,还保留了卷积网络权值共享的优点,降低了模型的时间复
学位