基于日志结构合并树的键值存储系统读性能优化研究

来源 :费长红 | 被引量 : 0次 | 上传用户:cdelphi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器学习等读密集型应用场景对存储系统读性能的需求不断提升,拥有高带宽、低时延以及高并发性的NVMe SSD逐渐成为构建高性能存储系统的重要设备。目前主流键值存储系统通常采用日志结构合并树(Log-Structured Merge Tree,LSM-Tree)作为数据索引,然而LSM-Tree受限于自身结构和低效的I/O(Input/Output)访问模式,难以充分发挥NVMe SSD的优势。因此,根据NVMe SSD的读写特性对LSMTree进行优化势在必行。通过对现有LSM-Tree键值存储系统在NVMe SSD上的读性能的深入分析,发现低效的文件定位方式、复杂的磁盘文件结构以及内核态同步I/O模式是LSM-Tree在NVMe SSD上读性能不佳的主要原因。为此,设计了一种读优化的键值存储系统Rolt KV,该系统通过优化LSM-Tree结构和I/O访问模式提升读性能。首先,为提升LSM-Tree的文件定位效率,Rolt KV充分考虑LSM-Tree中键值对的多版本特性,为无序文件中的最新版本键值对维护文件索引,有效降低了读请求处理过程中的文件定位开销;其次,为提升磁盘文件查找效率,Rolt KV简化了文件中的数据编码,并重新设计了基于哈希和二分查找的混合索引;最后,为提升LSM-Tree的I/O效率,Rolt KV设计了无竞争的用户态文件系统和异步读流程,在降低内核态I/O开销的同时,将LSM-Tree读请求处理流程异步化,有效利用了NVMe SSD的高并发特性。基于RocksDB实现了Rolt KV,并在真实的NVMe SSD上进行了性能测试评估。测试结果表明,在YCSB(Yahoo!Cloud Serving Benchmark)读为主的通用负载下,Rolt KV的性能是RocksDB的1.39~6.43倍,是Wiredtiger的1.33~6.00倍;在全随机读负载下,Rolt KV的读性能是RocksDB的1.82~9.05倍,同时CPU占用降低的比例最大可达39%,并且Rolt KV不会损失写性能和范围查询性能。
其他文献
闪存单元不断增加其存储密度,从单比特(Single-Leve Cell,SLC)到三比特(Triple-Level Cell,TLC)、四比特(Quad-Level Cell,QLC),从而增加闪存固态盘的整体存储容量,但这也显著增加读写延迟并降低可擦除次数。为了提升性能,TLC/QLC固态盘内部通常采用混合架构,一部分闪存单元设置成SLC模式,从而构成SLC层,作为后端QLC层的缓存。当前混合固
学位
负载的倾斜分布现象广泛存在于各种场景中,降低热点数据的读写延迟对提升系统整体服务质量有重要意义。B+树是一种被广泛应用的索引结构,新兴的非易失内存(Non-Volatile Memory,NVM)为B+树应对数据热点问题提供了新的思路,但已有的NVM上B+树相关研究工作都没有对冷热数据进行区分,这降低了它们对倾斜负载的服务能力。本文便主要聚焦于在NVM场景下设计热点感知的B+树结构。在对B+树的热
学位
麦角固醇是真菌细胞膜的重要组成部分,是维生素D等甾体类药物的重要前体,市场需求大且供不应求。目前,麦角固醇主要从酵母、青霉菌中提取,存在含量低、生产成本高、生产能力不足等问题。许多研究者通过超表达麦角固醇合成路径中1~2个基因或者理化诱变等方法改造酿酒酵母,缺乏对整个合成通路的系统研究。酿酒酵母合成麦角固醇的代谢工程改造,有望大幅提高麦角固醇产量。本文围绕酿酒酵母中麦角固醇合成与转运路径,系统分析
学位
从2000年初始,中国开始加大对核电建设的论证,国家核安全局组织各个部门重新评估如何保障核电站的安全,为了更好的实现纵深防御与多样性(Defense-in-Depthand Diversity,D3),做好核电站保护系统的备份,多样性驱动系统即第二套保护系统的设计成为各位专家、学者的研究重点。核电站的多样性驱动系统作为核电站保护系统的备份,在多样性上的技术研究和工程应用越来越重要,作为核电站仪控系
学位
随着中国经济的发展,中国的国际影响力不断提升,国际学生学习汉语的热情席卷全球。随着5G网络的普及,汉语教育的技术和形式也在逐渐多样化,特别是在新冠疫情期间,远程学习技术得到迅速推广和普及,逐渐成为一种主流的教学模式。毫无疑问,在线教育课程也将是未来国际中文教育发展的一大趋势。随着直播和视频娱乐的兴起,越来越多的汉语学习者开始利用新媒体视频直播平台学习汉语。作为中国年轻一代集中的文化社区和视频媒体平
学位
随着信息时代的发展,数据规模迅速扩张,更多的企业选择将业务部署到分布式集群上。然而分布式存储系统的资源是有限的,因此根据系统的存储能力为不同的用户制定合理的服务规则是非常重要的。分布式存储系统面向用户的服务质量(Quality of Service,Qo S)技术大多是在发送端来直接实施I/O限流的,然而这种方式并不能感知系统存储节点的资源使用情况,因此难以保证在各种应用场景下所有用户的性能需求。
学位
当今,数据量爆发式增长,不断涌现的内存计算型应用使用内存作为主要数据存储载体,以提升整体性能。然而,大容量内存存储通常面临两个方面的挑战:首先,内存部分失效、机器断电等故障会导致其上的数据不可用,需要通过系统级冗余机制保障数据的可用性,但是过高冗余导致性能和存储效率下降;其次,数据访问行为是动态变化的,静态数据布局难以适应。因此,内存存储系统需要在运行时根据工作负载变化动态地调整内存的数据冗余布局
学位
容器是一种轻量级的虚拟化技术,相比于传统的虚拟机,容器具有更快的启动部署速度、更小的运行开销和更高的部署密度,在云计算中得到了广泛的运用。弹性资源管理是云计算平台的重要特性,其能够在不中断服务的情况下动态伸缩资源配置以响应负载请求的变化,从而可以在保证应用服务质量的同时提高资源利用率。但是,在容器环境下,现有弹性CPU资源管理机制存在明显不足。首先,容器内运行的应用程序无法感知容器CPU资源的弹性
学位
工业以太网协议的引入使列车控制系统具有更高的开放性,有利于打破信息闭塞现状,提高轨道列车运营效率和司乘人员车厢体验,但同时也带来日益严峻的信息安全威胁,因此加强列车控制系统安全防护势在必行。入侵检测是列车控制系统信息安全防护的关键技术手段之一。当前列车控制系统存在流量规模迅猛增长、未知攻击频繁出现等现象,基于规则的误用检测技术无法有效识别未知攻击,而基于机器学习的异常检测技术存在真实列车网络通信数
学位
基于对等网络(Peer to Peer,P2P)的分散式存储网络是Web3.0的重要内容载体与核心组成部件。但P2P的匿名性引入了女巫攻击,为对抗女巫攻击及其变种,分散式存储网络常使用栈式深度鲁棒图(Stacked Depth Roubust Graph,SDR)算法减缓数据副本转换。但SDR算法的执行过程中生成的中间数据会占用大量内存,成为闲置设备加入分散式存储网络以及多个转换过程并行执行的主要
学位