论文部分内容阅读
分布式文件系统是当前热门的文件系统,以其高性能、高可靠性和高可扩展性成为高性能计算集群的文件系统首选,并成功的应用在天气预报、地震监控、物联网以及基因工程等海量数据处理的环境中。与传统的文件系统及存储系统相比,分布式文件系统不仅能为用户提供海量的存储空间和高聚合的I/O带宽,而且分布式文件系统具有良好的可扩展性,支持众多的客户端同时并发的访问系统。 Lustre是分布式文件系统的典型代表,同时也是高性能集群中应用最多的存储型文件系统。它采用模块化的结构框架,系统的每个功能模块并不是部署在同一台机器上,由于其结构功能的复杂性和影响系统性能因素的多样化,使得对Lustre文件系统的性能研究变得十分困难。本文根据Lustre文件系统的模块结构,从元数据服务器、对象数据存储、客户端以及网络环境四个方面分析影响Lustre文件系统的性能因素,从而提出一个了Lustre集群系统的七层结构模型。七层结构模型很好包含了Lustre集群系统的各个功能模块,将集群系统的功能结构归类,为Lustre文件系统的性能研究提供了很好的参考。从七层结构模型中提取出数据存储层、数据管理层、网络层以及应用层作为实验对象,分别测试OST数量、Client数量、MDS服务线程数、OST上条带宽度以及不同带宽的网络设备对Lustre集群性能的影响,这对Lustre集群的系统使用参数设置具有一定的指导作用。 因为Lustre文件系统是采用元数据与对象存储数据分离的存储方式,每次对系统存储的数据进行I/O访问时,都需要先与MDS进行交互以取得对象数据的元数据信息。对于小文件的I/O来说,这一过程额外的增加了网络传输的开销以及元数据服务器的访问开销,并且由于小文件本身较小,实际I/O操作花费时间少,但额外增加的网络传输开销以及元数据服务器的访问开销在小文件的I/O操作总用时中所占比例较大,这在一定程度上造成了Lustre文件系统的小文件I/O性能不佳。鉴于Lustre文件系统每次I/O操作都需要先与MDS进行交互的模式,本文提出一个基于MDS节点的小文件缓存池机制,具体的实现方法是在MDS上的后备高速缓存区域内划分出一个4GB大的缓存空间作为系统小文件的缓存池,小文件缓存池里面缓存经常被访问的小文件,这样节省了Lustre文件系统的小文件网络传输开销以及访问时间,从改善了Lustre文件系统的小文件I/O性能。最后通过实验证明:在使用MDS缓存池方法改进Lustre文件系统后,系统的小文件I/O性能得到了较好的改善。