论文部分内容阅读
随着互联网的飞速发展,海量数据不断地产生,企业也面临着如何更加高效地存储和分析大量数据的问题。Hadoop是业界流行的大数据处理平台,应用十分广泛,但Hadoop在后端存储系统的扩展性、应用场景的多样化、部署效率、资源利用率等方面仍存在一些实际问题需要解决。本文从解决前述问题的角度出发,对与Hadoop系统相关的关键技术进行了详细的分析,最终确定以GlusterFS分布式文件系统和OpenStack云计算平台为基础,提出了基于Hadoop的大数据处理云平台的构建方案并成功实现。本文主要工作包括以下几个方面:(1)对与Hadoop系统相关的关键技术,包括分布式文件系统(主要是HDFS和GlusterFS)、MapReduce并行计算框架、OpenStack云计算平台技术,从系统架构到实现原理进行了详细的研究与分析;(2)针对Hadoop后端存储系统存在单点瓶颈、应用场景面较窄等问题,提出了基于GlusterFS的Hadoop系统,即以GlusterFS替代HDFS与Hadoop MapReduce进行结合的大数据处理系统方案,同时设计并实现了两种不同的系统架构;(3)针对Hadoop集群存在的部署效率低、资源利用率有限等问题,以OpenStack部署Hadoop虚拟机的大数据处理云平台为基础,设计并实现了对于Hadoop虚拟机大数据处理应用场景下的动态调度优化,不仅提高了 Hadoop系统的部署效率,也进一步提高了其资源利用率。通过以GlusterFS为基础、基于Hadoop的大数据处理云平台的研究与实现,使得Hadoop系统在存储扩展性、应用场景多样化、部署效率、资源利用率等方面的实践应用中具有更高的使用价值。