面向冷热数据分布式云存储系统的可扩展局部重构码研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:hyb916720hui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着各行各业数字化进程的不断加速,大规模分布式云存储系统中的数据量持续性爆发增长。针对廉价存储设备的失效问题,云存储系统通常采用编码方案实现修复,保证系统可用性。由于在修复单个故障时,连接节点少、修复磁盘I/O开销低,局部重构码(Local Reconstruction Code,LRC)适应云存储系统需求,已在微软公司Azure等云平台广泛应用。然而,数据呈现多元化发展趋势,热数据在系统中被频繁访问、更新,将使得系统局部读取压力过大,进而引出系统超载、暂时性故障、网络带宽消耗大等一系列问题。传统的降级读取(Degraded Read,DR)操作与现有的局部重构码字的设计方法还难以有机结合予以应对。因此,面向冷热数据共存的分布式云存储系统,亟需提出具有可扩展能力的存储编码方案。目前,冷热数据块共存的局部重构编码存储系统仍存在以下问题:第一,现有局部重构码,大多认为所有数据块都是同质的,无法为局部热数据块提供局部高吞吐量,和较低的暂时故障修复带宽消耗;第二,缺乏准确衡量现有存储系统对局部热数据读取需求的应对能力的性能指标,并且没能基于实际需求给出适配编码方案的参数选择算法。基于上述两方面问题,本文提出了可扩展局部重构码(Scalable Local Reconstruction Code,SLRC)设计方案,定义了新的存储编码性能衡量指标,并给出了码字参数选择算法,开展的研究内容和主要贡献包括:本文引入了读取到达率(Read Arrival Rate,RAR)这一概念,来有效评价读取单个数据块读取负载能力。通过分析各个数据块相互完成读取任务的过程,本文推导了LRC存储系统修复暂时故障的降级读取过程中每秒内单个数据块负担的读取请求任务数量的变化。在此基础上,研究了在降级读取时如何减少降级读取操作的流量代价,为提出可扩展的编码方案提供了理论基础。针对第一个问题,本文基于局部重构码的编码原理,给出了可扩展局部重构码的设计方案。可扩展局部重构码的结构基于上述对降级读取的分析,符合信息编码理论。其能够为局部数据块提供更高的吞吐量,且通过降级读取解决暂时故障时的资源消耗更低。本文推导了SLRC存储负载和重构代价之间的对应关系,将其与RS码和LRC码的可达性能下界进行了对比,证实SLRC可以实现优于RS码的下界。针对第二个问题,建立了局部最大吞吐量(Local Maximum Throughput,LMT)和实现代价两个指标,分别衡量了系统可以满足的单个数据块在单位时间内的最大读取量和局部热数据块进行降级读取时的资源消耗。这两个指标基于读取到达率这一概念,保证了设计的合理性。本文针对多个编码参数的LRC码和SLRC码的LMT和实现代价性能进行了仿真,证实了SLRC局部热数据块存储在局部最大吞吐量和实现代价的优越性。此外,针对第二个问题中缺乏基于数据读取需求的具体参数选择算法的问题,基于实际应用场景中存储空间、重构代价和降级读取流量消耗等条件的限制,给出了不同情况下SLRC参数选择算法。分别得到了最小重构代价、最小存储负载、最小实现代价和最小综合性能评价指标条件下的算法,给出了具有可扩展能力的SLRC码字参数设计方案。本文还针对典型参数的LRC码和SLRC码进行了吞吐量和处理时延的仿真比较。
其他文献
随着互联网时代的到来,各种信息的数字化在人们的生活中随处可见。比如之前学生上课大多采用纸质书籍作为信息承载媒介,而近年来课件、PPT等电子授课工具越来越流行。甚至出于成本的考虑,电子化书籍也在学生中颇受欢迎。但是与此同时也带来了一系列的问题,比如电子化书籍中的PDF或者图片中的文字无法像文档一样直接编辑,为信息查找、修改或者统计录入带来了诸多不便。针对这些问题,本文提出了一个基于隐马尔可夫模型的文
阿尔茨海默病作为最常见的老年疾病之一,其主要表现为患者认知功能下降并逐渐丧失生活能力。该疾病具有隐匿性和不可逆性,尽早的诊断与干预对延缓病情发展对提高患者生活质量具有重要作用。研究表明阿尔茨海默病会导致患者大脑结构形态畸变,其中最典型的脑部结构是海马体。因此磁共振影像中海马体形态变化研究有助于疾病的早期诊断以及对疾病的发生和进展机理的进一步研究。目前磁共振影像中阿尔茨海默病海马体形态学研究方法仅从
卫星物联网(Satellite-based Internet of Things,S-Io T)能够突破现有地面网络仅覆盖20%左右陆地范围的局限,实现全球立体覆盖下的宽带接入。S-Io T已成为下一代移动通信的重要发展方向之一。本文面向未来S-Io T服务于地面终端的典型业务场景,综合考虑卫星受限的功率资源、星地长距离链路导致的大传播延时以及信号衰落,设计了基于网络编码(Network Codi
伴随着信息时代的发展,人们的数字娱乐生活越来越丰富,智能手机提高人们生活品质的同时也对无线数据业务的提出了新的要求。在第五代移动通信(Fifth-Generation Mobile Communication,5G)时代,移动无线网络不仅仅需要提供几十倍于4G(Fourth-Generation Mobile Communication)的峰值传输速度,更需要保证毫秒级的数据传输时延。当前的商用的
脑肿瘤又称脑胶质瘤、脑癌,是最具侵袭性的肿瘤之一,无论对患者的身体上还是心理上都威胁极大。核磁共振成像技术由于成像质量高,且对人体没有伤害,在临床上被广泛应用于肿瘤图像的采集。然而脑肿瘤图像十分复杂,不同肿瘤亚区的边界具有一定的模糊性,这使得脑肿瘤分割工作变得非常困难。当前主要是依靠医生或专家手动进行分割,不但效率低,而且医生在长期高强度的工作下可能会导致分割精度的下降。另外,为了能帮助医生进行临
多载波系统是当今水声通信的热点研究方向,其利用循环前缀(Cyclic Prefix,CP)拥有了优秀的抗多径性能,但是其采用的矩形窗带外衰减过慢,导致受多普勒效应干扰明显,且CP的使用也降低了系统的信息传输速率。水声信道复杂且变化快速,存在明显的多普勒效应,后者极大限制多载波通信技术在水声通信中的应用。而滤波器组多载波(Filter Bank Multi-Carrier,FBMC)系统既有良好的抗
移动数据的爆炸式增长,给传统的蜂窝网络带来了前所未有的挑战。为了缓解海量无线流量带来的压力,边缘缓存技术成为了当下研究的热点。边缘缓存把部分网络内容放置在具有缓存能力的边缘节点中,可以在流量高峰时实现快速的内容分发,缓解传统蜂窝网络的流量压力。通常,这些边缘节点可以是基站或者是移动设备等。随着移动设备数量的飞速增加和移动设备中的存储介质成本逐渐降低,D2D(Device-to-Device)通信技
进入信息时代以来,网络中信息的数量以惊人的速度急剧增加。用户要在这些巨量的信息资料中准确找到所需的部分极其困难,如何利用计算机辅助用户过滤噪声数据,挖掘有用信息已经成为目前的研究热点。命名实体识别是利用计算机从自然语言文本中抽取出命名实体,为之后更高级的任务奠定基础。对于科研技术人员来说,经常需要从大量文献中寻找资料,而中文领域的命名实体识别研究目前还大多集中于通用领域,也就是新闻文本领域,涉及科
随着移动数据流量的爆炸式增长,现有的蜂窝通信系统在海量数据请求时所承受的负担日益严重。通过基站转发至核心网的通信模式已经无法满足5G时代对大容量、低时延、低功耗的用户体验需求。随着移动设备计算和存储能力的提升,将内容存储在移动设备中,采用设备到设备(Device-to-Device,D2D)通信技术进行信息传递的移动存储系统成为解决海量数据大规模并发请求的关键机遇。移动设备在电量耗尽或离开基站覆盖
近年来,随着近地轨道卫星的快速发展,卫星物联网(satellite-based internet of things,S-Io T)将为第五代(fifth generation,5G)移动通信以及下一代大规模机器类通信(massive Machine Type Communication,m MTC)提供经济高效的全球覆盖和宽带接入。然而,如何实现高效的m MTC仍然是一个开放难题。本文重点考虑S