论文部分内容阅读
随着计算机与网络的迅猛发展,数据量也与日激增,据思科在其《全球云数据报告中》指出,由于用户和企业的不受限制地访问及应用数据的需求,在2010至2015年期间,全球云数据流量将以每年66%的速度增长。传统的分布式高性能处理平台处理数据的能力已经满足不了井喷式增长的数据处理请求。应运而生的云计算、云存储则满足此类数据密集性的服务请求。本文研究内容是基于Hadoop的云系列服务系统的文件系统HDFS在其读写过程中传输策略的研究。旨在通过对HDFS读写等基本操作的效率提高及容错来实现更高效率及高度容错的文件系统。云存储中的每个操作都离不开对文件系统的调用,对文件系统HDFS中最基本、最常用的读写操作的传输过程进行研究并改进,实现并行读写及高度容错,这会极大程度提高云存储服务中数据的访问速度及可用性问题。本文首先介绍了云存储的相关理论和技术,阐释了云存储的定义,并对其应用场合加以描述。紧跟着又对HDFS进行了透彻的剖析,并对其相关技术进行了解析和比较。随后对HDFS读写容错需要的技术进行详尽的描述,为接下来的研究提供的良好的技术保障。最后在通过研究HDFS读写机制进行分析之后,对HDFS的读写机制中文件传输进行改进,实现文件数据块级的并行传输功能。从而为云存储的高延迟及副本安全性问题提供一个可靠的解决方案。本文主要实现了云存储文件系统的文件系统HDFS中文件读写过程中的并行传输策略,及改进的副本自动复制策略,提高了读写效率,降低延迟时间,为云存储用户提供高效并稳定的服务。在本文的改进策略下,充分利用了副本的存在,分散了网络的负载,数据读的效率可提高160%,数据副本的复制效率也大大提高。