Hadoop平台高可用性方案的设计与实现

来源 :北京邮电大学 | 被引量 : 21次 | 上传用户:bitbull_cn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网发展带来的数据爆炸,现在很多企业都使用分布式文件系统来搭建高性能和高扩展性的应用,存储自身海量的数据并加以分析。Hadoop就是目前比较主流的开源分布式文件系统之一,它支持海量数据存储、可扩展性强、容错性强、可以运行在廉价的商用机器上,是大多数企业的首选。但是,Hadoop并不支持高可用性,因为它采用了Master/Slave架构,其中担任Master的NameNode是Hadoop中的单点问题。本文提出了一种热备、自动故障切换的高可用性解决方案—ANC (High Availability Node Cluster),并给出了具体实现方案和评测结果。具体内容和研究成果如下:1.介绍了Hadoop文件系统的架构,详细分析了HDFS中NameNode节点和DataNode节点的功能,包括NameNode元数据,NameNode启动流程和SafeMode状态。另外,对高可用技术的概念进行了介绍,在分析软件系统和硬件系统中的高可用技术方案基础上。我们给出了分布式文件系统中的高可用关键技术,包括系统状态监测技术、复制技术和服务连续性的处理技术。2.分析出NameNode是Hadoop中的单点问题,研究了目前解决Hadoop高可用性的解决方案,并根据解决方案的备份机制和切换方式将它们分为五类,详细分析了每一类方案的具体实现方式。3.详细介绍了HANC的体系架构和各个功能模块以及具体实现方式。整个系统由数据同步模块,集群管理模块和客户端访问模块组成。数据同步模块主要包括元数据同步、数据块位置信息同步和租约管理。集群管理模块包括多NameNode节点的管理和主节点宕机的处理流程。客户端访问模块负责在宕机过程中客户端的重定向。另外,本文提出了一种增大HDFS读吞吐量的策略。4.通过实验对本文的高可用性方案进行了评估,实验结果表明故障切换时间处于一个较小值(6秒左右),并且与原生Hadoop0.20.2相比,系统读取吞吐量有所提高并且访问延迟有所降低,证明了本方案的可用性。论文最后给出了下一步的研究方向和论文总结。
其他文献
近几年,中国证券市场不断发展,投资产品逐渐丰富,证券营业部数量大幅扩张,客户数量迅速增长,客户结构、客户需求日趋复杂和多样,而作为证券公司主要收入来源的证券经纪业务仍
数据采集系统是信号与信息处理系统中不可或缺的重要组成部分,是计算机与外部世界联系的桥梁,也是获取信息的重要途径,它在现代科学研究和工业控制中发挥着越来越重要的作用
园本课程建设的关键在于教师科学教育理念的形成和践行,加强幼儿园教师队伍建设,促进幼儿教师素质的全面提升和专业发展,是当前和今后一段时间推进学前教育科学发展的一项重
2013年英国卫生部公布了国民健康服务制度(NHS)体系的最新改革方案,建立了以社区卫生服务为核心的卫生保健体系(HCS)。本文通过文献分析法,简要回溯了英国卫生服务体系的建设
本论文针对城市轨道交通系统,设计了一套以通用Mesh组网设备为基础的应急通信平台。该平台的目标是可以在复杂的地形环境,封闭狭小的空间中快速组建用于指挥救援的无线通信网
空间环境是诱发航天产品在轨故障的主要原因。电连接器在航天领域应用范围大,数量可观,地位重要。随着航天器可靠性要求的不断提高,如东方红-4号通信卫星要求在轨寿命达到15
要建设社会主义核心价值体系,增强社会主义意识形态的吸引力和凝聚力。这是党中央高举中国特色社会主义伟大旗帜,向全党提出的重要的历史任务。在高等院校,用社会主义核心价
目的探讨幽门螺杆菌(helicobacter pylori,Hp)感染对帕金森病(parkinson’s disease,PD)患者运动症状的影响,了解清除Hp治疗对PD患者运动症状波动的作用。方法选取2011年1月
板式换热器由于具有换热效率高、结构紧凑、占地面积小、板片形式多、组装灵活、拆卸清洗方便等优点,在石油、化工、轻工、食品、制冷等行业得到广泛的应用,是生产、生活中重
目的调查居家老年人生命质量及其影响因素,为提高居家老年人生命质量提供依据。方法 2014年1—5月,采用便利抽样法,对北京市海淀区中关村社区和甘家口社区内250例老年人进行