论文部分内容阅读
相对于集中式存储,分布式系统具有水平可扩展,高可用和高性能等优点,可以从容应对急速膨胀的海量数据。一般新建的分布式存储系统包含多种存储介质:低速、大容量且廉价的机械硬盘HDD,速度较快的、容量较小、价格较高的SATA SSD,以及速度非常快、容量更小、成本很高的NVMe SSD等。所以,分布式存储系统随之带来的是复杂性,其规模更为庞大,结构更为复杂,往往需要专门的运维人员。软件定义存储(SDS)是将存储软件和硬件分隔独立的系统架构,剥离了软件对于专有硬件的依赖性,其将分布式存储软件抽象出来,可以适配各类硬件或硬件组合,随之带来的是:相同的分布式存储系统软件,其硬件环境和规模可能相差很大。复杂的、异构的大规模存储集群很难有一种普遍适用的运维策略。这样,不同的集群就需要针对性的进行参数调整和性能优化。本文主要关注基于存储引擎的分层存储系统的性能优化,基于蚁群算法研究存储分层调度,以吞吐率作为性能指标进行参数分析及性能优化,目标是提升以Ceph为代表的分布式存储系统的整体性能。主要研究如下:1.分析当前主流厂商的分布式存储分层方案及主流分层存储方案。基于Ceph分布式存储系统,提出基于存储引擎的分层存储概念及方案,最大化存储空间,避免空间浪费,减小负载变化的影响。2.将分布式存储系统的分层存储调度抽象为0/1背包问题,提出了基于蚁群算法的分布式存储系统的分层存储调度方法,给出了该方法的可行性分析、数学模型及算法流程,分析算法参数调优,并将基于蚁群算法的分层调度算法应用至分层存储系统设计及实现中。3.针对不同分层存储方案和分层替换算法,制定详尽的性能测试方案,完成不同存储类型测试,并通过对比分析各类方案,给出当前Ceph分层方案选型参考。最后,基于Ceph分布式存储系统实现了基于蚁群算法的存储引擎分层调度的方案,在分层存储的基础上,搭建分层调度性能测试实验环境。通过对比其他存储分层方案和原生的基于存储池分层的Ceph分布式存储系统,表明本文提出的基于蚁群算法的分层存储方案有较明显的性能提升和成本优势。