论文部分内容阅读
随着“互联网+”时代的来临,技术边界不断扩张,大数据、云计算、物联网与现代制造、生产性服务等产业的融合创新,引发基础设施层次上的巨变,可以概括为“云、网、端”三部分。越来越多的企业选择将他们的业务迁入云中,同时伴随业务的发展,来源于博客、社交网络、视频网站、微博等数据密集型web2.0网络应用,将会在应用后台产生数目庞大的小文件,而且随着时间的推移,海量小文件的增长呈几何级增长。随之而来,这对传统的文件系统提出了新的挑战。 现有面向大数据处理的文件系统,主要针对上层计算框架开发与定制,不能利用底层平台函数库。以HDFS为例,它由JVM实现,无法利用与底层平台相关的技术进行优化,不具备POSIX接口。已有的文件系统,不具备支撑大数据处理的功能,并且无法解决小文件的诸如高并发、大流量、元数据瓶颈以及热点不集中等问题,不能有效应对这种海量增长的小文件服务应用。 PVFS是由C语言实现的并行文件系统,具备POSIX接口,可直接调用底层平台函数库和硬件,从而进行系统加速优化。本文在PVFS文件系统基础之上提出并实现了小文件合并策略以及针对上层计算引擎的可控分布策略,具体研究成果如下所示: 1.提出一种针对小文件的分布策略block stripe。将多个小文件放在同一个block块中,block中的每个文件都拥有一个fileId。通过blockId与fileId可以唯一确定小文件位置。整个模块都采用PVFS特有无锁机制状态机实现。 2.提出并实现一种集群资源感知的方法。在大数据处理中,通过资源感知区分节点负载,提升节点性能,是资源节点最优化的一个重要方面。该感知模块可以开放给上层JNI接口,使得上层计算引擎MapReduce可以根据资源状况确定所需要的计算节点。 3.实现基于指定节点数的负载均衡可控数据分布策略。通常对于大数据处理的计算与数据是绑定的,控制了数据的分布,就相当于控制了计算节点的选择。本文实现根据需要的节点数,优先选择资源负载较低的节点参与任务,从而实现可控的数据分布。该策略在文件任务较小时,能带来一定的性能提升。 4.基于上述技术,通过改造PVFS,设计并实现了大数据分布式文件系统,既能对大数据处理有效支持和可控分布优化,又能提供POSIX接口小文件数据访问的服务。