论文部分内容阅读
在海量数据存储与大数据处理中,普遍采用了基于HDFS (Hadoop DistributedFile System,Hadoop分布式文件系统)架构的集群来存储数据。为支持大数据分析在海量数据上进行实时查询和秒级响应的需求,数据中心内部普遍使用高速网络,但是,现有的基于HDFS架构的分布式文件系统的读性能并不能够随着网络速度的增加而线性增长。现有的分布式文件系统在高速网络环境下,由于受制于磁盘I/O速度,读操作吞吐量性能不高,不能充分利用高速网络资源,为上层应用提供高效的数据服务。针对以上问题,提出一种节约内存的缓存管理机制MSBM(Memory SavingBuffer Manager)。MSBM缓存管理机制在数据服务器端对数据做缓存,保证客户端下一次到数据服务器端读取数据时,需要的数据已经在缓存中。MSBM缓存管理机制在数据服务器端设计了仅预取一个数据块的缓存预取策略,从而在使用缓存提高读性能的同时,尽量节省内存使用率,使缓存管理机制适用于运行在数量庞大而又廉价的分布式集群上。三个缓存管理队列被用以管理数据块在缓存中的置入与置出,并提供读取数据的服务。此外,还有相应的负载决策被提出以使缓存策略达到最优效果,从而使分布式文件系统在高速网络环境下,能够对海量大文件实现高效的缓存管理,充分利用InfiniBand网络,提升整个分布式文件系统的读数据的性能。通过分别对有无MSBM缓存管理机制,以及在千兆以太网和InfiniBand网络上进行测试对比,MSBM缓存管理机制对于系统的性能有一定改善,读吞吐量提升比例提高了50%-150%,测试表明MSBM机制可有效的应用于高速网络环境下的分布式文件系统中。