论文部分内容阅读
云计算的发展为大数据处理提供了新的思路,但云环境的应用成本也给中小型企业带来了很大的负担。于是开源分布式框架Hadoop成为首选,该框架由两个主要部分构成:HDFS和MapReduce。其中HDFS是一个单中心结点的分布式文件系统。为了降低因为单点故障而带来的损失,各个公司都有自己的HDFS HA方案,虽然实施方案不同但它们的核心思想都是采用备机方案。这些方案虽然可以减少HDFS发生单点失效时的损失,但耗时长,同时存在数据丢失的可能。本文在双机热备的基础上提出了一种新的容灾系统,解决了存在的单点问题,同时通过一致性算法保证了数据的完整性,弥补了采用备机方案造成数据丢失的不足。具体而言,论文的主要工作如下:(1)介绍云计算的相关概念、特性和实现方案等,同时详细介绍了开源的分布式系统框架Hadoop和其基本组成部分:HDFS和MapReduce。(2)研究了几种当前流行的HDFS高可用性方案,这些方案中分热备和冷备两种。结合中心服务器Namenode在HDFS中的地位与作用,提出了新的双机热备、三机协同的HDFS架构。(3)通过对一致性算法Paxos进行研究分析,设计出适用于三机架构的Paxos算法;并且根据该算法设计出了三机数据同步框架。这样保证即使出现结点失效的情况,系统依然可以有效的对外提供读写访问服务。`(4)通过对HDFS源码进行研究、剖析,修改了其中部分的代码结构,满足同步框架规范,实现了双中心结点架构,保证了对外服务。(5)搭建仿真平台,对新容灾系统下双中心服务器的HDFS文件系统的可行性和有效性进行了验证。本论文为HDFS HA方案提供了新的思路,以双机热备为基础,设计出的三机Paxos架构和数据同步框架具有一定的理论意义和应用价值。