论文部分内容阅读
随着调度自动化系统监测数据量呈指数级增长,Hadoop分布式云计算平台由于其高可靠性与扩展性以及分布式的文件存储方式成为解决海量数据存储问题的最有效手段,但没有针对小文件存储进行相应的优化设计,引起Hadoop平台整体存储性能的急剧下降。本文针对Hadoop平台中海量小文件存储所产生的问题进行了分析研究,结合Hadoop分布式文件存储系统HDFS,提出了小文件存储优化的基本框架,设计了小文件存入预处理方案、读取预处理方案及小文件存储访问中间件,并给出了具体的实现方法。