分布式并行流处理系统容错

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:zhou101302
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和网络技术的飞速发展、数据生成设备的不断丰富,越来越多的行业领域产生了以“高速”、“持续不断”和“动态变化”为特征的数据。这类数据被称为流数据(Streaming Data)。流数据的价值通常随着时间的推移而迅速降低,对这类数据的实时处理要求越来越高。传统的“先存储后处理”技术,如数据库与批处理,不再满足对此类数据及时处理的需求。因此,流处理(Stream Processing)技术应运而生,并成为学术界与工业界近年来大数据管理的重点探索领域之一,相关的流处理系统层出不穷。为了提高系统应对海量流数据的处理能力、满足应用的低延迟需求,流处理系统往往采用超大规模分布式集群或云平台部署。例如,阿里的Blink系统最大的生产集群机器数超过1,500台;Microsoft的Stream Scope系统部署在两万台机器的共享集群上。随着系统规模的不断扩展,加上系统24×7小时不间断运行,系统出现故障的概率不断攀升,可靠性问题加剧。故障可能导致系统输出错误的结果、造成系统不可用,降低用户体验,甚至带来高昂的经济损失。因此故障容错成为分布式并行流处理系统中亟待解决的问题。研究者们提出了多种容错技术,其中基于检查点机制(Checkpoint)的被动复制(Passive Replication)由于其较低的复杂性与资源消耗被广泛应用于主流的分布式并行流处理系统中。本文旨在挖掘现有分布式并行流处理系统检查点机制存在的缺陷,设计相应的解决方案,最终实现高效的容错,即在保证系统快速恢复的同时,降低容错对系统无故障期间的运行时开销。本文的主要贡献总结如下:(1)设计了针对分布式并行流处理系统的容错技术评测框架:流式基准评测成果往往只关注系统在无故障发生期间的性能评测,而忽略了容错机制对系统性能造成的负面影响。为了弥补这项研究内容的缺失,本文设计了首个针对分布式并行流处理系统容错技术的评测框架。具体地,由于已有流式基准评测工作的局限性,其中的工作负载与评测指标关注的是系统的整体运行性能,不能直接用于容错技术的评测,因此本文分别就容错对系统无故障期间带来的负面影响与容错恢复效率两方面,定义了相关的评测指标,并基于三类典型基准程序,结合数据特征、应用场景特征与容错机制特征的可控参数,设计了六种特定工作负载。通过对两个主流系统的容错机制评测,总结并挖掘出其缺陷所在,奠定了本文另外两项研究工作的基础。(2)设计了自适应检查点机制以降低容错对系统性能的负面影响:在生产环境中,开发者往往结合自身经验与应用场景需求将分布式流处理系统的检查点间隔设置为某个固定值。然而,检查点间隔的取值与系统的可用性紧密相关。通过容错技术评测框架评测两个主流系统发现,检查点间隔取值过小将导致检查点操作频繁干扰系统的正常逻辑处理,造成延迟急剧增加;检查点间隔取值过大将导致累积过多的待重播数据,造成恢复时间过长。同时,由于流数据天然的动态变化特性,固定不变的检查点间隔取值使得系统在流量高峰时无法避免检查点操作的执行,将造成长时间的系统性能下降。本文分别就非协作式与协作式检查点机制,优化了基于算子与拓扑处理利用率的检查点间隔模型,使其支持任意故障概率与数据倾斜分布;利用层次聚类的时序分割思想,设计了自适应检查点间隔的动态调整策略以应对流速的变化,从而降低检查点机制对系统无故障期间造成的额外开销。(3)设计了代价敏感的负载均衡机制以提高容错恢复效率:分布式并行流处理往往基于元组的Key进行数据路由与分发。对于基于Key的操作,以Key为单位进行均衡调整往往能最大限度地保持算子的处理语义,但是当Key倾斜程度较为严重时,算子的多个并行实例极大可能出现负载不均衡现象。通过容错技术评测框架评测主流系统发现,超载实例由于被分配过多的数据、累积更多的状态,导致检查点回滚耗时远高于其他低载实例。此外,若数据倾斜发生在数据重播阶段,超载实例成为故障恢复时期的拖延者,降低系统整体的恢复效率。本文在兼顾CPU、内存与网络带宽开销的前提下,提出了基于Key的混合数据分发策略与三种轻量级的、代价敏感的均衡调整策略,使得系统在保证良好均衡效果的同时,降低了均衡调整所带来的额外代价,最终提高恢复效率。综上所述,本文通过容错技术评测挖掘现有分布式并行流处理系统容错技术的潜在缺陷,并设计了自适应检查点机制与负载均衡机制以实现高效容错。通过在不同的测试负载与数据集上进行了大量的实验以及与相关技术的对比测试,本文全面验证了提出方法的正确性与有效性。
其他文献
微塑料在海洋和淡水生态系统中无处不在。由于其尺寸小的特点,极容易被水生动物所获取,引起了越来越多的科学关注。环境中的微塑料是由多种塑料颗粒混合组成的固体污染物。目前多数的微塑料毒理学实验将微塑料简化为单一化合物。另外,形状规则、尺寸精确、聚合物类型单一的商业化微球是最常用的微塑料,与真实环境中的微塑料并不统一。目前的暴露方法忽略了微塑料的多样性,导致了微塑料的室内毒性数据不能反映真实的微塑料风险。
单原子催化剂通常是指以孤立的金属原子作为活性中心分散于载体上的催化剂。这种催化剂完美地继承了均相催化剂和非均相催化剂的优势,凭借其100%的原子利用率,定义明确且分布均匀的活性中心,高原子活性,容易分离回收且高耐受性等优势在短短几年的时间里迅速发展成为催化界的新前沿,引发了众多科研工作者的研究热情。目前已经有许多的单原子催化剂的合成方法被开发出来,包括湿化学法,热分解法,高温原子捕获法和原子层沉积
风力长距离传输的细颗粒粉尘直接或间接地对气候、生态环境和人类健康产生重要影响。因此,大气粉尘传输过程一直受到学者们的广泛关注。第四纪风尘黄土是由风力搬运粉尘堆积形成,它直接记录了粉尘源区古沙尘暴活动历史和古大气环流信息。所以,风尘黄土物源研究有助于检验大气环流模式,厘清地球表层复杂的粉尘传输过程和深入认识源区古沙尘暴活动及干旱化历史。风尘黄土沉积源汇过程研究已经成为地貌与第四纪科学研究的一个热点。
植物生物量是估算陆地植被碳储量的基础,对全球变化下的碳循环有深远的影响。陆地植物生物量普遍受氮素有效性限制。在氮沉降速率急剧增加的背景下,深入探究陆地植物生物量对氮添加的响应和变化规律,有助于理解和预测未来气候变化下陆地植被动态和全球碳循环。由于控制实验中环境、氮处理方式和物种选择上的差异,氮添加对陆地植物生物量的影响具有较大的种间差异。本文基于全球尺度的整合分析与站点的野外控制实验,探究植物生物
随着能源短缺、环境污染和温室效应等问题的日益严重,电催化水裂解制氢(HER)和电催化二氧化碳还原(ECR)技术在电催化能源转化领域中扮演着越来越重要的角色。典型HER和ECR体系中的阳极氧析出反应(OER)是一个动力学过程缓慢的过程,一般需要很高的过电势才能驱动,这导致反应体系能耗的增加。此外,阳极产物O2可以从大气中轻易获得,附加价值很低。电解体系产生的O2不仅可能导致活性氧物种的生成,进而破坏
三尖杉属植物共有九种,有七种在我国的南方省区分布广泛。三尖杉属降二萜具有潜在的抗肿瘤、抗炎、抗真菌活性,挑战性化学结构、潜在的生物活性,这些都吸引了科学家的关注。Cephanolides A和B是由岳建民课题组,从粗榧中分离得到的C18三尖杉属降二萜,其共同的结构特点包括:复杂的笼状骨架,含有多取代芳环(A环),以及含有六个连续手性中心的环己烷环(C环)。本论文主要针对Cephanolides类三
半导体微腔激光器具有腔长短、响应快、可集成度高等优点,在现代信息技术领域具有重要的应用需求。基于钙钛矿结构的新型半导体光电材料,由于具有大的光学吸收系数、高的光致发光量子产率、长的载流子扩散长度、超低的缺陷态密度和可调节的直接带隙等优良特性,在激光器方面也展示出了巨大的应用潜力。近年来,基于不同钙钛矿种类的微纳结构激光器不断涌现,相关的研究主要集中在谐振腔类型、激发波长、钙钛矿种类对稳态激光特性的
随着虚拟化技术、大数据和人工智能技术的快速发展,云计算在互联网、政务、金融、交通、医疗以及教育等诸多关键领域得到了广泛应用。在云计算范式下,云服务提供商通过互联网向用户提供硬件设施、平台、软件等不同形式的共享服务,而用户可以随时随地通过网络按需购买和使用这些云服务。随着云服务市场日渐壮大,云服务提供商不断增多。在竞争激烈的云服务市场环境下,当面对众多用户提交的各类云服务请求时,如何最大化云服务利润
西北干旱区地处欧亚大陆腹地,气候干燥,降雨稀少,几乎所有的河流都发源于山区。然而,由于山区气象和水文观测站点稀少,数据缺乏,从而使气候变化影响下径流的不确定性评估成为一个难题。为了解决这个问题,本文以塔里木河流域作为西北干旱区内陆河流域的典型代表,基于多源数据,通过构建气候变化影响径流的贡献量、敏感性与不确定性的定量评估模型,运用多个不确定性测度指标与缺水指数,结合水情丰枯变化递推计算方法、气候水
元认知,是一种自我监控、评价、反省的高级认知功能,也是自我意识(selfconsciousness)的一种直接体现。大量证据表明,人类的元认知与认知高度分离,并且还可能是领域特异化的,比如知觉的元认知与记忆的元认知互相独立。但是,无论是行为学上还是神经学上,从未有研究在动物上验证过这种元认知的专门化与特异化。在行为学上,有研究指出了猕猴可能拥有类人的元认知能力,但是这种元认知可能受到大量混淆变量的