基于日志结构合并树的大规模键值存储系统优化方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:z362523
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据技术的蓬勃发展,需要对海量数据进行高效保存和处理,从而对存储系统提出更高性能需求。基于日志结构合并树(Log-Structured Merge-Tree)实现的键值存储系统,在处理写请求时能够将小颗粒的随机写聚集成大颗粒的连续写从而充分利用外存设备带宽,因此具有高吞吐能力并被广泛应用在大规模存储环境中。近年来,计算机硬件技术也在快速发展。在计算方面,多核处理器和高并行专用处理器已经普及;在存储方面,新型非易失性存储器与DRAM内存的性能鸿沟不断缩减,以及支持并发IO的闪存固态盘已得到广泛部署并逐渐取代机械硬盘。面对日益庞大的海量数据和新型硬件的特性,基于传统硬件资源设计的日志结构合并树键值存储系统在新应用环境中面临巨大挑战。针对上述形势,需要对日志结构合并树键值存储系统从处理逻辑、存储过程、和存储介质等方面重新审视并综合优化以适应大规模数据对高性能存储的迫切需求。国内外学术界和工业界也在这方面进行多维度研究,包括定制化日志结构合并树以优化特定负载下的性能、更改日志结构合并树合并策略以减少写放大、设计面向闪存固态盘或者其他非易失存储器的日志结构合并树等。本文研究工作着重从日志结构合并树的内存缓冲结构、IO存取过程、模型设计这三个方面分析其在部署和研究工作中面临的关键问题,进而提出有效解决方案。首先,日志结构合并树使用一块内存区域作为新数据缓冲区,当前键值存储系统对此缓冲区的数据通常使用跳表结构进行保存和索引。在新型非易失性外存储器与DRAM内存的性能鸿沟不断缩减的趋势下,缓冲区跳表结构由于处于读写请求处理的关键路径,其性能对基于日志结构合并树存储系统的发展至关重要。目前的跳表有概率型和确定型两种,前者维护代价小但是索引结构不稳定,而后者反之。基于此,提出在搜索过程中按需创建索引节点的新型跳表结构Bod Skip以提高内存缓冲区结构的性能。Bod Skip根据遍历步数确定是否需要创建索引节点而非凭借随机概率,因此支持生成稳定索引。同时,索引节点按照历史搜索信息生成,避免因创建无价值索引产生的额外开销。在加入新节点时,Bod Skip只涉及对新节点前后两个相邻节点的更新,因此在并发操作上具有优势。其次,日志结构合并树键值存储系统的主流实现方式依托传统基于“应用/文件系统/块设备”的多层存储处理栈,并通过文件系统将日志结构合并树管理的数据持久化保存在块设备上。然而,文件系统层的引入严重影响日志结构合并树对外存设备带宽的利用。通过深入分析三个典型文件系统在存储日志结构合并树时所产生数据的IO特征,发现外存设备带宽无法得到有效利用的原因在于文件系统会产生尺寸小但数量多的额外IO。以实验证实和量化了文件系统层所引起IO在机械硬盘和固态盘上的性能代价后,据此提出日志结构合并树直接存储技术并实现原型系统LDS。直接存储技术的原理是使用日志结构合并树结构管理外存空间以完全消除文件系统层引入的IO开销。最后,基于日志结构合并树实现或衍生的键值存储系统种类众多,但是缺乏一个分类体系,使得部署和研究工作面临着低效以及难以进行准确评估的问题。针对此问题,全面分析并归纳包含日志结构合并树在内的多阶合并结构的根本特征,提出“树/森林”分类模型,并在此基础上进一步探索多阶合并结构仍然存在的设计空间,提出一种基于森林模型的高性能键值存储系统Sifr DB。“树/森林”分类模型的提出突破日志结构合并树概念的局限性,从原理上解释了已有键值存储系统性能偏好的根源。根据该模型对基于不同类型多阶合并结构的键值存储系统进行了严格区分,使得在部署和进行相关研究工作时对模型或系统在选择和认识上有章可循。Sifr DB在实现上吸收了各自模型优点的同时又避免了其缺点,并能够无缝运行于所提出的LDS系统上获得直接存储的收益。另外,在Sifr DB中设计了一种高效的并行搜索算法解决森林模型较为突出的读降级问题,该算法充分利用固态盘的内部并行性显著提高了查询性能。总而言之,本文研究工作全面审视传统日志结构合并树键值存储系统的整体架构和数据处理过程,分析关键性能问题并提出最大化挖掘硬件潜力的优化方法,实现应用逻辑和硬件特性有效结合以全面提升日志结构合并树键值存储系统在大规模存储环境中的性能。
其他文献
英语名词后置修饰语是指出现在英语名词后的修饰成分,主要包括介词词组、非限定分句、关系分句以及针对某些前置修饰语的后续补足成分等。英语名词后置修饰语形式多样、功能繁复,且所构成的句子结构较长,容易形成翻译难点。很多学者对名词后置修饰语的分类、特征与翻译方法都有很深入的研究,这些研究给本翻译实践报告的写作提供了充分的学术养分。本文关注英语名词后置修饰语的翻译,选择的翻译文本是科普类文本Humans a
学位
城市交通系统是城市居民活动的重要组成部分,维持着一个城市的正常运转。伴随着城市人口的不断增多、城市规模的不断扩大、机动化进程的急剧加快,进而导致交通拥挤、堵塞的现象日趋严重。而综合医院,作为城市不可或缺的重要公共医疗资源,其区域交通拥堵问题尤为明显,不仅影响了城市居民的日常生活,同时也限制了医疗体系自身的可持续发展。本文通过对综合医院的现状交通进行实地调查,深入挖掘现有问题进行归纳总结,从宏观到中
目的基因的靶向治疗是近年来抗肿瘤研究的热点,而制备具有高效肿瘤靶向定位能力的药物输送载体是靶向治疗的关键。壳聚糖(chitosan,CS)纳米载体凭借其优良的生物学性能在组织工程载体中备受关注。本研究利用透明质酸(hyaluronic acid,HA)受体CD44在非小细胞肺癌(NSCLC)中的高表达性,制备HA修饰的新型壳聚糖纳米载体,探讨其作为基因靶向递送载体的可行性,为NSCLC的基因靶向治
目的:本研究通过调查临床护理带教老师教学能力、角色压力与工作倦怠的现状;分析社会人口学特征对其教学能力、角色压力与工作倦怠的影响情况;明确临床护理带教老师教学能力、角色压力与工作倦怠之间的相关性;探讨临床护理带教老师工作倦怠的影响因素,为降低临床护理带教老师的工作倦怠水平提供参考依据。方法:本研究属于非实验性研究的相关性研究,采用便利抽样法,从山东省威海市两所三级甲等医院中选取符合纳入标准的250
目的:近年来,发展中国家迅速上升的糖尿病患病率和仍然严重的结核负担,已成为结核防控面临的重大挑战。研究表明,糖尿病(diabetes mellitus,DM)患者是发生肺结核(pulmonary tuberculosis,PTB)的高危人群,在糖尿病患者中,结核病发生风险是普通人群的2.48.3倍。已有研究发现,与正常人群比较,PTB患者、DM患者血清锌(Zn)、硒(Se)元素含量降低,血清铜(C
伴随着高级自动化课题中机器人技术的持续发展,机器人的应用越来越引人注目,其中的假肢机器人作为医疗机器人未来发展的研究方向之一,具有着重要的研究价值。这会给假肢机器人的发展带来很大的推动作用,同时也对假肢机器人的运动性能提出了更高的要求。对于假肢机器人的运动性能来说,其逆向运动学的求解与运动轨迹规划等问题就会显得尤为重要,它们将在很大程度上影响到假肢机器人的运动性能。本文就以上问题进行了研究分析,首
随着移动通信网络中移动设备数量的激增,网络中移动数据流量随之呈爆炸式增长。未来移动通信系统面临的一个重要的挑战,是使用有限的基础设施承载异常高的流量需求。为降低网络的建设成本及运维成本,无线接入网络(Radio Access Network,RAN)架构演进为基于无线单元(Radio Unit,RU)、分布式单元(Distributed Unit,DU)及中心单元(Central Unit,CU)
近些年来,随着我国智慧城市以及天网系统等项目的不断开展,视频目标跟踪技术得到了广泛的应用,如智慧城市中的智能监控,天网系统中的人脸识别以及目标跟踪等,同时也对目标跟踪技术提出了更高的要求。视频目标跟踪一直是计算机视觉领域的一个热门议题。自从2010年David SBolme第一次将相关滤波应用到视频目标跟踪领域以来,许多学者对基于相关滤波的视频目标跟踪算法进行了深入研究,以期提高视频目标跟踪的准确
区块链技术是以一种巧妙综合了多个领域技术的一种新型系统架构,具有去中心化,不可篡改,透明可追踪等特点。智能合约是一种可以自动化执行交易的计算机协议,其被提出的初衷是为了自动化交易过程,但由于缺乏可信的执行环境,智能合约发展一直止步不前。借助区块链技术所提供的可信环境,智能合约被引入区块链技术体系。用户通过把智能合约部署在区块链中,使得智能合约能够在区块链环境中执行。智能合约扩展了区块链系统的功能,
近年来装备制造企业对产品识别系统(Products Identity System,简称PIS)的重视程度越来越高,国外的知名大型企业和国内华北、华中等发达地区的企业已经完成了PIS的建立。而东北地区内众多的中小企业产品识别系统的构建工作刚刚开始,作为中国制造业起源地的东北地区,如何振兴东北地区制造业一直是各学科领域研究热点。而中小企业又是国民经济的重要组成,因此本文试图从工业设计的角度,探讨如何