基于Ceph分布式存储系统的性能优化

来源 :第 23 届全国信息存储技术学术会议 | 被引量 : 0次 | 上传用户:hydhdhfdhsdh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  近年来随着云计算、大数据技术的飞速发展,人们对数据存储能力、计算能力的需求呈现爆炸式增长,依靠传统的存储系统已经完全不能满足要求.高效的存储和计算能力成为当下面临的挑战.因此大量的分布式存储系统应运而生逐渐成为主流的存储和计算平台,如:GFS、MooseFS、Ceph、GlusterFS等等,分布式存储系统在数据分布均衡和系统容错方面的发展已经相对成熟,然而存储和计算之间的性能差距不断的扩大,在面对海量数据规模下提供与计算性能相匹配的高性能数据访问能力变的越来越重要,因此,提高分布式存储系统的性能是目前研究的重点.本文针对目前最主流的分布式文件系统ceph,ceph完全消除了对系统单一中心节点的依赖,从而实现了真正的无中心结设计思想.其广泛的应用性和优秀的性能使其被誉为软件定义存储开源项目的领头羊.然而Ceph的存储性能存在几个隐患,1)数据双倍写入.Ceph本地存储接口(FileStore)为了支持事务,引入了日志(Journal)机制.所有的写入操作都需要先写入日志(XFS模式下),然后再写入本地文件系统.简单来说就是一份数据需要写两遍,日志和本地文件系统.这就造成了在大规模连续IO的情况的下,实际上磁盘输出的吞吐量只有其物理性能的一半.2)IO路径过长.这个问题在Ceph的客户端和服务器端都存在.以osd为例,一个IO需要经过message、OSD、FileJournal、FileStore多个模块才能完成,每个模块之间都涉及到队列和线程切换,部分模块在对IO进行处理时还要进行内存拷贝,导致整体性能不高.3)对高性能硬件的支持有待改进.Ceph最开始是为HDD设计的,没有充分考虑全SSD,甚至更先进的PCIe SSD和NVRAM的情况NVRAM.导致这些硬件的物理性能在Ceph中无法充分发挥出来,特别是延迟和IOPS,受比较大的影响.因此本文针对这些问题,提出了多副本并行读、存储引擎的去日志优化以及混合使用SSD和HDD一系列优化方案.通过设计合理的实验进行验证对比,实验表明这些方案能够有效的提高ceph存储系统的性能.
其他文献
近年出现的一类新型非易失性存储器(Non-Volatile Memory,NVM)如相变存储器和RRAM等,表现出非易失、存储密度高、低延迟、低功耗、抗震性好、可按字节寻址等优点,使得NVM成为潜力巨大的新型存储设备.针对这类NVM,学术界和工业界已设计实现多个新型内存文件系统如PMFS、SIMFS和HiNFS等,充分发挥非易失性内存高访问速度和可按字节寻址等优点,实现高效的文件访问和可靠的一致性
随着物联网、移动互联网、社交网络等一系列新兴技术和应用方式的出现,人们对海量数据实时存储、处理的需求不断增加.分布式消息系统由于其解藕数据收集与处理系统、良好的性能和扩展性被广泛使用.基于对分布式消息系统的广泛需求,一大批消息系统被开发发布,其中包括LinkedIn 2011年推出的Kafka,Twitter 2016年5月开源的DistributedLog,Yahoo!2016年9月开源的的Pu
近年来,随着云计算和大数据技术的相继涌现,数据中心在规模上和数量上都出现了跨越式的增长,能源消耗进一步加剧.能源成本的增长和环境问题的日益突出使得数据中心面临严峻挑战,引进经济环保的新能源已经迫在眉睫.太阳能和风能是目前最具前景的两种新能源,不仅获取方式简单,在全球大部分地区广泛存在,而且环保无污染,但是新能源的间歇性、不稳定性和突变性等特点,导致数据中心无法有效适应新能源.为此,各大数据中心开始
云计算依靠自身优秀的性能,灵活的扩展性,低廉的价格吸引着国内外企业将自身的业务迁移到云上.但是随着云上企业数量增多、任务种类增多、性能特征变复杂,用户很难在运行成本与服务需求的平衡中实现最优,所以用户为了简化操作申请过多的资源,造成了使用成本增加.许多典型的解决资源利用率低下的问题,都是从云提供商的角度优化放置算法,而用户选择将限制资源利用率增加;也有一些方法通过在云平台下的任务性能短时间采集并预
本文首先基于Landau Khalatnikov理论通过使用BSIM4模型来对NC-FeFETs进行建模,分析NC-FeFETs具有的栅极电压放大作用.之后考虑到阻尼常数对器件性能的影响,设置阻尼常数为主要变量,引入了基于反相器的延迟测试、功耗测试以及再生性测试,将得到的结果与相同条件下的MOSFETs进行对比,当阻尼常数为0.0001Ω·m时,NC-FeFETs在延时上与MOSFETs相当,并且
NVMe全称Non-Volatile Memory Express,非易失性存储器标准,是PCI-E SSD的一种规范。命名空间管理是最新NVMe规范中的一个固件功能,本文在基于PCI-E SSD的测试平台上设计和实现了命名空间的创建和删除算法,使得一个固态盘可以当做若干个固态盘使用;还实现了设备端的命令处理流程,可以通过命令分发、命令解析、命令数据传输等任务去处理在设备端的命令,最后根据NVMe
随着云计算和移动互联网的发展,前端的设备提供服务入口,而大量的数据存储和处理任务需要在后台的数据中心完成,数据中心成为云计算时代最重要的基础设施。与之相对应的是,企业级数据中心的规模越来越大,数据中心的自动化运营和维护所面临的挑战也越来越大。除了软、硬件故障以外,服务器的磁盘使用过高是数据中心运维中最常见的问题之一,且经常发生于系统负载最高的时候,严重伤害用户体验。通常对于服务器的运行情况等信息有
图作为一种重要的数据结构,广泛应用于社会各个领域,如最优运输路线、科技文献引用关系、数据挖掘、蛋白质分解、语义网分析等应用问题.随着人类社会信息化程度的提高,伴随这些领域产生的图数据量也在以爆炸式的速度增长.来自各类应用的图数据规模与日俱增,常规计算机难以一次性将数据全部从外存载入内存进行处理,只能在处理过程中对存储在低速、大容量外存中的数据进行多次访问,由此造成图数据频繁地在高速和低速存储设备上
随着当今的社交网络的快速发展,越来越多的图像被上传到云端.这些图像种类丰富多样,并且往往存在大量相似以及冗余.相似图像每时每刻都在产生,如连拍、游客在同一个景点拍摄的照片、不同人对同一物体或场景所拍摄的照片等.然而目前的图像编码算法如JPEG、JPEG 2000、JPEG XR等均只考虑图像像素间或者区块之间的相似性,忽视了图像之间内容上的冗余.与此同时,硬件的发展速度难以满足人们日益增长的存储需
二十一世纪以来,随着信息全球化的发展和电子商务、社交网络等新兴网络应用的普及,各领域都出现了数据爆炸的现象.KPCB的报告显示,目前全球网民总数已达24亿,Facebook每天处理25亿条内容,超过500TB数据,而twitter每天产生2亿条信息.在国内,2013年中国产生的数据总量超过0.8ZB,是2012年的两倍,相当于2009年全球的数据总量.数据的爆炸式增长使得分布式文件系统逐渐代替本地