论文部分内容阅读
随着信息化程度的不断提高,数字信息也迅速增加,分布式文件系统为海量信息的存储提供了有效的解决措施。对分布式文件系统的研究表明,系统对于大文件操作,可以充分使用网络带宽和服务器的存储能力,有非常好的性能。然而,对于日益增长的小文件应用,存在网络带宽利用率低,小文件读写性能差的问题。CapFS是实验室自主研发的分布式文件系统,通过详细分析CapFS系统文件读写流程,得出小文件读写时客户端请求队列长,从而导致了读写操作延迟大,性能低下。结合当前文件系统设计现状,并充分利用Linux内核缓存,改善了小文件访问负载性能。采用基于聚合的小文件优化技术,在客户端写操作中,将多个文件保存在同一个数据块,从而实现聚合。综合网络带宽使用和一致性开销等指标,得出合适的数据块大小;结合Linux内核文件预取机制,选取关联文件放在同一个数据块中,在一定程度上提高文件读性能;结合Linux内核缓存机制,确定数据块缓存策略及“脏”数据块刷回机制;通过回调机制,保证多客户端并发访问的一致性。在元数据服务器端,采用哈希方式来管理数据块元数据信息,提供高效的数据块索引能力。测试结果表明,小文件聚合技术使得CapFS小文件写性能有较为明显提升,小于64KB的文件,写性能提升约一倍,网络带宽利用率增加约一倍;小文件顺序访问时,对于小于64KB的文件,性能提升约25%;对于系统原有大文件性能不受影响。