高性能高可靠的键值存储系统研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:nofengy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了适应海量非结构化数据的访存需求,并克服传统关系型数据库和文件存储在可扩展性和性能等方面的不足,键值存储(简称KV存储)系统提供了很好的解决方案(具有数据模型简单,易扩展等优点),被部署在众多应用的基础存储设施中。然而,随着数据规模的不断增长及数据类型的高度复杂化,键值存储系统面临着不同层面的问题:首先,在存储引擎层,基于LSM-tree的存储架构存在严重的读写放大问题,在大规模数据存储下尤为严重。其次,在数据容错层,当前统一的多副本管理方案会进一步加剧系统的读写放大问题。最后,在应用的访存需求层,诸多应用往往仅需访问数据的某些属性值,但已有键值存储系统不能在存储层感知数据的属性特征,导致大量无效的磁盘I/O。上述问题导致键值存储系统的访存效率及扩展性受到严重限制,因此,如何从存储引擎层、数据容错层、应用的访存需求层进行优化设计,是构建高性能高可靠的键值存储系统的关键。本文在存储引擎层,研究了键值存储系统的混合索引机制;在数据容错层,研究了分布式键值存储系统的多副本容错管理;在应用的访存需求层,研究了属性感知的异构内存键值存储系统。本文的主要研究内容和贡献如下:(1)键值存储系统的混合索引机制研究键值存储系统通常采用LSM-tree和哈希表作为其索引结构,然而,不同索引结构往往存在不同的性能权衡。例如,哈希索引可以提供快速的点查询,但不支持范围查询且内存开销大,只适用于小规模的数据存储;LSM-tree可提供快速的写入和范围查询,但多层存储架构导致严重的读写放大。所以,单一的索引结构难以满足高性能的读写需求。另一方面,实际工作负载往往存在访问热点问题,即少量热数据被频繁访问。基于上述观察,为了解决键值系统中单一索引结构面临的问题,我们研究提出了一个基于混合索引架构的键值存储系统UniKV,它将哈希索引和LSM-tree的关键设计思想统一在一个系统中。首先,将数据分为热数据和冷数据两层,为少量热数据在内存构建哈希索引,以加速对热数据的访问;冷数据采用单层LSM-tree,以保证良好的可扩展性和范围查询性能。此外,提出了基于部分KV分离的高效合并策略,基于键值范围的动态分区策略,分区间的并行优化方案等多种优化技术,以提升系统的整体性能。最后,我们基于开源系统LevelDB实现了原型系统UniKV,实验结果表明,在读写混合的工作负载下,UniKV可以将系统吞吐量提升到已有键值存储系统的2.0-7.1倍。(2)分布式键值存储系统的多副本容错管理研究为了保证数据的高可靠并提供数据容错,多副本容错机制被广泛应用在分布式键值存储系统中。然而,现有多副本管理方案并未考虑LSM-tree架构的读写放大问题,在每个节点上简单地采用一个LSM-tree对所有副本(主副本和冗余副本)进行统一存储。因此,多副本机制下LSM-tree中存储的数据量会成倍增长,从而进一步加剧LSM-tree的读写放大问题。为了解决上述问题,我们研究提出了一个基于副本解耦的高性能分布式键值存储系统DEPART。首先,通过哈希计算并结合一致性哈希环来对副本数据进行解耦,使得副本解耦操作是轻量级的。然后,对解耦出的主副本和冗余副本进行差异化存储:对于主副本,仍采用LSM-tree进行存储,但更加轻量级,从而保证主副本可以同时获得较好的读写和范围查询性能;对于冗余副本,研究提出了一个两层日志架构,首先将所有冗余副本批量追加到第一层全局日志,之后使用后台线程将其分割到第二层的多个本地日志中,以保证高效的冗余副本写入性能,并且本地日志中细粒度的数据管理也能保证良好的冗余副本读性能。此外,我们为两层日志架构设计了有序度可调机制,通过一个参数将两层日志调整为有利于写或者利于读,从而用户可通过调整两层日志的有序度来获得想要的性能提升。最后,设计了并行的数据恢复机制,以加速数据恢复操作。我们基于Cassandra实现了原型系统DEPART,实验结果表明,DEPART可将Cassandra的读写吞吐量分别提升2.5倍和1.4倍,并将数据恢复时间减少一半左右。(3)属性感知的异构内存键值存储系统研究数据的属性特征普遍存在,且利用数据属性进行数据挖掘和分析,具有重大研究价值。然而,现有键值存储系统在存储层不能感知数据的属性特征,将所有属性值以字节串的形式追加存储在KV数据中。当应用需要对数据属性值进行分析处理时,需要首先读取出整个KV数据,然后再解析出指定的属性值,导致大量无效的磁盘读写。为了解决上述问题,我们研究提出了一个属性感知的异构内存键值存储系统SchemaKV。首先,研究提出一个基于DRAM/NVM异构内存的存储架构:将所有数据存储在NVM中,以提供大容量和持久化;将少量热数据缓存在DRAM,以提供低延迟的访存性能。其次,设计了一个属性感知且基于页面的缓存架构,以保证低元数据开销,高缓存命中率。并且,我们设计了数据异步缓存框架,以及模式感知的选择性缓存策略,以减轻数据缓存操作对系统性能的影响,并充分利用缓存空间来提升性能。此外,设计了缓存亲和的空槽选择策略,使得在缓存数据时内存地址相邻的数据尽量是有序的,以提高CPU缓存命中率。最后,设计了轻量级的缓存逐出策略,使得缓存有足够的空间来缓存新数据。我们基于乔戈里开源平台实现了原型系统SchemaKV,实验结果表明,SchemaKV可以有效支持对数据属性值的访存,并能提供低延迟的访存性能。
其他文献
聚乙烯及其共聚物薄膜是目前使用量最大的高分子薄膜品类,广泛应用于包装、农业、能源等领域。挤出吹膜是聚乙烯及其共聚物薄膜的主要成型方法,深刻理解聚乙烯及其共聚物吹膜加工中结构演变机理对于发展高分子薄膜加工基础理论和指导薄膜产品开发具有重要意义。分子量及其分布,共聚单体和支链结构的类型、含量等赋予聚乙烯及其共聚物丰富的化学结构参数,使其能够满足不同的服役需求。吹膜加工中,在多个工艺步骤和参数作用下,聚
学位
柴达木盆地涩北气田为典型的多层疏松砂岩气田,气田具有埋深浅、成岩作用弱、储层敏感性强、易出砂等特点。随着涩北气田开发深入,气田普遍存在着出砂、出水加剧和地层压力下降明显等问题。常规冲砂存在冲砂效率低、遇阻频繁、冲砂液漏失、易产生储层污染等问题。通过冲砂液配方优化、地面泡沫发生筒和冲砂工艺方案的优化等措施,提升连续油管氮气泡沫冲砂工艺在涩北气田的适应性。现场应用表明:该工艺优化后提高了冲砂效率,成功
期刊
合肥先进光源(HALF)是第四代衍射极限储存环光源,辐射光谱主要位于真空紫外和软x射线区,其超高的亮度和极低的发射度要求束流轨道稳定度达到亚微米级别。除了提高磁铁精度,增强支撑装置的稳定性等,实时的全局轨道反馈控制是稳定束流轨道必不可少的方法。设计中合肥先进光源的快轨道反馈系统(FOFB)的更新速率为10 kHz,需要采集240个束流位置数据和控制160个快校正电源(水平方向和垂直方向各80个)。
学位
双轴取向聚对苯二甲酸乙二醇酯(Biaxial oriented polyethylene terephthalate,BOPET)薄膜具有透光率高、力学强度大、阻氧阻湿性能优异、物理和化学性能稳定等特点,在包装、印刷、光伏、光学显示以及其它特殊领域都有极其广泛的应用。随着光伏、电子电器以及新型显示行业的快速发展,对于具有特种性能的BOPET薄膜的需求越来越急迫,例如需要薄膜具有极低或极高的取向、高
学位
<正>癌症是全球死亡的主要原因,在英国,2017年所有死亡中有28%可归因于癌症,结直肠癌、乳腺癌和前列腺癌合计占所有新发癌症病例的39%,据估计,近40%的癌症病例可以通过可改变的因素来预防。尽管已经提出了几种饮食因素会影响患癌风险的高低,但目前仍不清楚饮食模式是否与患癌风险有关。2月24日,《BMC Medicine》上发表的一篇研究论文,称每周只吃五次或更少的肉与较低的整体癌症风险有关。
期刊
气相-表面体系中的能量交换涉及许多工业应用的核心。在这种能量交换的过程中会有一部分能量耗散到表面导致表面被热化,由此造成不必要的能量损失。研究能量交换过程中的能量耗散对于调控气相-表面动力学来说具有重要意义。考虑到气相-表面体系的复杂性,目前量子动力学计算无法考虑表面自由度因而不能描述气相-表面体系的能量耗散过程,而准经典轨线方法作为探究量子分辨动力学的有效工具已经被广泛应用于各种气相-表面相互作
学位
随着互联网应用的快速发展,用户的数据呈指数型增长,存储系统对容量以及性能的需求越来越高。保证高可靠性是存储系统的基础功能,多副本和纠删码是存储系统常用的两种容错存储策略。多副本通过多倍的冗余来保证存储系统的高可靠性。相对于多副本,纠删码能够用低存储开销提供高可靠性,但是在数据读写、降级读以及故障修复等过程中,需要大量的跨节点数据传输和编解码计算,所以网络和计算常成为性能瓶颈。一般来说,纠删码存储系
学位
二维有机骨架材料具有比表面积大、空隙结构可调和电子结构易于调控等诸多优点,其在化学领域具有广泛的应用前景,已成为当前基础研究的热点之一。然而,二维有机骨架材料在物理领域的研究才刚刚起步,基于二维有机骨架材料的拓扑平带、量子反常霍尔效应和铁磁等新颖量子物性的研究尚不够深入。本论文结合密度泛函理论和紧束缚模型,系统地研究了二维有机骨架材料中的拓扑平带、自旋极化以及面内量子反常霍尔效应。本学位论文包括如
学位
近年来随着深度学习技术的发展,深度神经网络在诸多领域取得了令人瞩目的成就。深度学习技术在生产生活中的广泛应用也为深度学习的发展带来了全新的挑战。特别在安全领域的应用中,决策系统的鲁棒性尤为重要,因为错误决策可能会带来生命财产的损失。因此,探索深度学习模型的鲁棒性成为了深度学习发展的重要领域。在该动机驱使下,人们发现了对抗样本现象:深度学习模型在面对恶意注入的细微扰动时显现出了令人惊讶的脆弱性。具体
学位
气相-表面界面上的化学反应由表面上发生的能量转移和转化控制。找到一种将能量引导到适当的自由度的方式将有助于理解和指导多相催化的新发展。然而,目前还不完全了解气相分子与金属表面碰撞的过程中,分子内的振动模式如何相互耦合以及它们之间的能量是如何流动的。庆幸的是,态-态分子散射可以作为分子-表面相互作用的灵敏探针,为分子初始振动能量的流动提供非常有价值的信息。但是,由于态-态量子动力学计算的复杂性,现有
学位