论文部分内容阅读
随着互联网的高速发展,数据规模以指数级的速度增加,如何来存储和处理这些数据是一个挑战性的问题。Hadoop允许用户不熟悉分布式的情况下,充分利用海量存储的集群和高速计算,做分布式应用程序开发。Hadoop最出名的是MapReduce分布式计算框架和它的分布式文件系统HDFS。主要特点是:成本低,扩展能力非常好,效率高,出色的可靠性。它是可以运行在在多个操作系统和商用类硬件上的系统。但是,HDFS设计的初衷是存储大文件的,当面向某些特定应用的时候,应用会产生大量的小文件,小文件的增多就会导致文件存储速度过慢,系统使用内存急剧升高。针对这一问题,提出了一种新的架构HUST MAP-REDUCE FRAMEWORK(HMRF),采用了文件合并的思想对小文件合并成为大文件的方法,对小文件存储进行了优化处理。实验表明,基于Hadoop/MapReduce的可扩展存储系统架构(HMRF)能够很好的存储大量小文件。基于HMRF,名称节点内存平均降低了63.2%,数据节点内存平均降低了38.7%,小文件写入速度平均增加了171%。