基于IBM Symphony的spark集群上主节点高可用性的设计与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:xingdeyanglina
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的来临,信息成爆炸式的增长,互联网以及移动设备每天都会产生大量数据。同时,用户提出了新的需求,如何在可接受的时间范围内从海量数据中挖掘出用户想要的、有价值的信息。后来,hadoop、spark等大数据计算框架出现在了人们的视野中,其中,spark成为大数据分析的主流工具,基本满足人们对性能的要求。很多公司加入到开源spark社区中,希望借由spark建立起对大数据领域的影响。Ibm就是众多公司中的一个,并宣传道“spark是ibm未来十年最重要的事,将安排3500名开发人员参与到spark相关的项目研发中”。Spark on ego团队就是其中的一支队伍,我们对开源spark进行了深度定制,将spark集成在了 ibm自己的资源调度框架ego上,使得spark在资源调度方面有了更好的性能和功能。同时,spark on ego团队开发了更多的功能,比如基于用户层级的资源调度等等,为用户提供了更好的服务。基于ego的spark master节点高可用特性是spark on ego项目的子模块,总体目标是实现master节点的高度可靠,当master节点出现故障宕机之后,master进程能够从故障中恢复过来,恢复到宕机前的状态,继续为集群提供服务。Spark on ego项目本身是开源spark版本的定制版,有很多功能是从开源spark中直接集成来的。而master节点高可用特性实际在开源spark中已经实现了,因此,我们主要通过参考开源spark中master节点高可用特性的实现,并结合spark on ego本身和开源的不同之处,如不同的master端类结构、不同的任务调度和资源分配流程,来实现我们自己的基于ego的spark master节点高可用特性。基于ego的spark master节点高可用特性的工作流程是,master节点宕机后,会根据用户配置的故障恢复策略,采取不同的启动方式。若用户配置为zookeeper模式,master宕机后,zookeeper将从用户事先配置好的备用master节点中选举产生新的leader master节点,然后进入故障恢复流程;若用户配置为fileSystem模式,需要用户手动启动master进程,随后进入故障恢复流程。Master进入故障恢复流程之后,首先会读取存储在外部设备中的元数据信息,判断该不该进行故障恢复,判断的标准是外部存储设备中是否存储了要恢复的application信息和driver信息,若有,则继续进行故障恢复;若没有,则直接进入master的正常工作状态。Master继续进行故障恢复后,会从资源管理器ego端以及driver端获取master端需要的任务调度信息和资源分配信息。当所有需要的数据获取到后,master进程会优先使用正常任务调度和资源分配流程中的操作,对这些数据进行同步,即重构master进程各对象中任务调度信息和资源分配信息相关的数据,使得master进程中的数据和master宕机前进程中的数据保持一致,继续为集群提供服务。
其他文献
随着信息时代的迅速发展,人们对于通信带宽和速度的要求越来越高。通信容量的增加对光通信系统中各器件的性能提出了更高的要求。光调制器是光通信系统中必不可少的器件之一,
近年来,企业界和学术界均强调企业社会责任行为对投资者态度与行为具有至关重要的影响,履行企业社会责任行为越来越受到企业、政府、公众的重视。受到市场竞争和技术变革的驱
目的:通过检测阻塞性睡眠呼吸暂停低通气综合征(obstructive sleep apnea-hypopnea syndrome,OSAHS)患者血浆血管生成素样蛋白4(angiopoietin-like protein 4,ANGPTL4)和血管生成素样蛋白8(angiopoietin-like protein 8,ANGPTL8)的水平,研究其与OSAHS脂代谢紊乱的相关性,探讨ANGPTL4
随着点云相关技术的高速发展,大量产业与领域开始加深对点云的结合与应用,城市规划、VR虚拟现实、机器人自主导航、3D影视等处处可见三维点云的身影。但三维点云从扫描到应用中间,还需要进行大量的处理工作,而点云的特征提取与形状分类都是点云应用前至关重要的处理步骤。本文主要针对室外场景的三维点云,进行特征提取并实现点云的形状分类。本文提出了一种基于高斯主元分析的几何特征提取方法,通过KD-Tree和KNN
在中国经济高速发展的进程中,中国经济稳中求进、稳中有忧,经济下行的压力有所增加,特别是在中美经贸摩擦的背景下,中国经济面临的外部环境严峻,无法与自身的发展相平衡,使得稳定增长、预防风险的难度加大。从需求方面来看,消费增速持续疲软,尽管房地产开发投资保持较高水平,基础设施投资略有反弹,但受工业企业利润增速下降和进出口增速下降的影响,制造业投资急剧下降,总投资增速有所回落。在此经济环境下,金融市场发挥
在n个连续的测量周期内持续出现的流被称为持续流。对于一个主机,在n个连续的测量周期内至少有一个主机始终与该主机相连接,则该主机称为持续主机;同时始终与该主机连接的其
目的:通过观察三种不同禁饮状态对腹腔镜胆囊手术全身麻醉患者麻醉诱导前、插管前、插管即刻及插管后5分钟血压、心率的变化,同时测定各时间点静脉血去甲肾上腺素、血糖水平变化,了解不同禁饮状态对腹腔镜胆囊手术全身麻醉患者气管插管应激反应的影响,进而为减轻患者麻醉时应激反应提供更合适的选择。方法:选取邯郸市中心医院普外一科60例腹腔镜胆囊切除术患者,将患者随机分为三组:对照组(即术前禁食12小时,禁饮8~6
随着信息技术的快速发展和数字多媒体设备的不断普及,我们生活中的数字视频资源日益丰富。在视频数据中,人工文本信息同视频的内容密切相关,对于视频的分析理解和检索等应用
随着互联网的高速发展,网络攻击事件频繁发生,如端口扫描、蠕虫病毒、DDoS攻击等,这些事件具有相似的行为特征。例如,蠕虫病毒传播时,攻击者的源主机在短时间内向大量的目的
随着计算机的普及以及互联网的快速发展,越来越多的信息服务为用户的日常生活带来了便利,尤其是近年来智能手机的普及,使得用户可以随时随地地在网络中分享或者获取信息。这