论文部分内容阅读
随着互联网的飞速发展,数字信息正在呈现爆炸式的增长,人类已步入大数据时代,传统的存储方式在处理海量数据方面显得越来越乏力。如何高效地处理和存储海量数据已成为一个亟待解决的问题。伴随着数据处理以及存储技术的快速发展,云计算的概念应运而生。云存储是云计算的延伸和发展,它具有结构灵活、响应效率高、管理方便等优点,已经成为世界各国解决数据爆炸性增长方案的首选。Hadoop分布式文件系统(HDFS)作为目前应用非常广泛的云存储平台具有开源、廉价、高容错以及高可扩展性的特点。但是由于自身的主从式结构和元数据的存储方式导致其在处理海量小文件时NameNode内存占用率高、存储访问效率低、并发用户的访问时延长,这些问题已经成为制约HDFS整体性能的瓶颈。因此,基于HDFS的海量小文件存储方法的研究与优化是云计算技术领域的一个重要研究课题。为了解决HDFS处理海量小文件时耗费内存资源和检索效率低的问题,本文首先研究了HDFS下处理小文件的现有方法,分析了各自的优缺点,并在此基础上提出了一种具有独立小文件处理模块的分布式文件系统。该架构是在分布式文件系统的基础之上加入一个完全独立于HDFS的小文件处理模块,负责小文件的合并、映射、预取,在传统HDFS处理之前将小文件整合为大文件。该架构使得HDFS系统在处理小文件的同时不影响对大文件或者对已合并小文件的写入或读取,从而提高系统的存储访问效率。并且,本文所提架构更加符合传统HDFS高效处理大文件的设计理念,在解决多用户高并发访问问题上也有一定优势。最后通过系统仿真,说明在元数据耗费内存资源、存储访问效率、用户并发访问方面所提架构比原HDFS系统及HAR方法具有较大提升。