论文部分内容阅读
Hadoop是近几年发展比较成熟的云计算平台之一,作为一种开源软件框架,它凭借其可靠性、可扩展性和分布式的计算和存储而迅速发展,为众多企业和研究研究者所认可。Hadoop主要由底层分布式文件系统HDFS和上层并行编程模型MapReduce引擎构成,其中HDFS以其优异性能至今仍被广泛应用。HDFS采用主从架构模式,由单一NameNode和多个DataNode组成,其主要针对流式数据访问模式而设计,但对海量小文件(指比HDFS默认文件块(64MB)小很多的文件)处理性能不佳,而现实应用中却存在HDFS存储海量小文件的需求。目前针对HDFS小文件问题,主要对策是对文件进行合并,在进行文件合并时,对于小文件并没有明确的定义,然而文件分界点问题直接关系到HDFS文件存储策略、文件合并策略的研究,对HDFS海量小文件的存储有着至关重要的意义。针对HDFS (Hadoop Distributed File System)中小文件处理性能不佳的问题,本文研究HDFS设计架构及其对应的存储机制,分析HDFS文件操作相关过程,以及HDFS在进行文件操作时采用的一些量化标准,从中分析出导致HDFS在处理小文件时性能不佳的根本原因。本文主要工作如下:(1)分析HDFS小文件问题产生原因,分析小文件问题研究现状,将研究现状分为Hadoop自带解决方案、通用问题解决方案、特定问题解决方案三个角度进行论述,分析其各自的原理、研究进展,最后对其进行对比,分析现有HDFS小文件问题解决方案存在的不足之处。(2)针对目前小文件定义不精确问题,创新性提出一种云存储系统中文件分界点确定方法Cut—GAR方法,Cut—GAR利用灰度关联分析,将文件大小作为评价对象,NameNode内存消耗、文件上传速度、文件下载速度作为评价指标。首先,通过分别测试NameNode内存消耗、文件上传速度、文件下载速度与文件大小关系,分别得出一个文件分界点;其次,借助灰色关联分析,得出三个评价指标所占权重以及灰色关联度;最后,将三个评价指标所得权重与第一步所得文件分界点相乘,得出云存储系统中文件分界点。验证Cut-GAR稳定性,将HDFS数据块分别修改为16MB与32MB,测试不同数据块下,Cut-GAR所得文件分界点;验证Cut-GAR有效性,将Cut-GAR所得文件分界点与原始文件分界点所得方法进行对比。