论文部分内容阅读
随着计算机技术、网络技术和信息技术的发展,信息量呈爆炸式增长,我们已经生活在数据时代。在当今高度信息化的社会中,互联网已经成为目前最大的信息系统,其里面的数据具有海量、动态变化、多样、异构等特性。而原来传统的关系型数据库在应对具有高并发、大规模以及TB/PB级的数据量的应用需求是,特别是当今流行的SNS类型的动态网站,已经显得力不从心。同时,随着云计算和云存储的兴起,如何有效地存储这些海量数据;如何能快速地能这些海量数据进行计算,提出对企业有价值的信息;以及何如方便地管理这些海量数据,成为当今互联网企业在面对海量数据时,碰到的一个技术难题。
本文基于这个问题为出发点,研究和分析目前在云计算和海量数据存储和计算方面,比较火热的云计算平台Hadoop。其平台在对海量数据进行存储和计算方面非常有优势,应用开发者不需要了解其平台底层的计算实现细节,便可以利用其平台进行分布式应用的开发,同时,其平台一般运行在普通廉价的计算机集群上,可以充分利用集群的威力进行运算和存储,这可以极大地节约投入硬件的经济成本。
本文首先介绍本课题的研究背景,研究意义和内容,并简要的阐述在海量数据存储和计算方面的云平台-Hadoop。接着,主要对在海量数据存储和计算方面的关键技术进行介绍,特别是目前火热的云计算方面的相关计算,其中介绍了云计算的基本概念和其体系架构,以及云计算中的虚拟化技术、并行计算和分布式计算、分布式存储技术、分布式数据管理技术等关键技术。然后,重点研究了Hadoop平台中的两个核心组件,分布式文件系统HDFS和并行编程模型Map/Reduce,对相关的基本理论概念,设计理念,框架结构进行了分析说明。再者,详细研究了Hadoop进行数据存储的实现技术,特别是在名称节点和数据节点的具体实现技术方面作了深入分析,以便更加深入了解Hadoop存储数据的技术细节,并针对基于文件系统的一个具体应用实例,对文件系统的性能进行了测试分析,得出了相关的结论,为以后面临的云存储打好技术基础。最后,对本文的工作进行总结和展望。