高并发文件系统PVFS中小文件优化与大数据布局策略研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:piliwuhen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着“互联网+”时代的来临,技术边界不断扩张,大数据、云计算、物联网与现代制造、生产性服务等产业的融合创新,引发基础设施层次上的巨变,可以概括为“云、网、端”三部分。越来越多的企业选择将他们的业务迁入云中,同时伴随业务的发展,来源于博客、社交网络、视频网站、微博等数据密集型web2.0网络应用,将会在应用后台产生数目庞大的小文件,而且随着时间的推移,海量小文件的增长呈几何级增长。随之而来,这对传统的文件系统提出了新的挑战。  现有面向大数据处理的文件系统,主要针对上层计算框架开发与定制,不能利用底层平台函数库。以HDFS为例,它由JVM实现,无法利用与底层平台相关的技术进行优化,不具备POSIX接口。已有的文件系统,不具备支撑大数据处理的功能,并且无法解决小文件的诸如高并发、大流量、元数据瓶颈以及热点不集中等问题,不能有效应对这种海量增长的小文件服务应用。  PVFS是由C语言实现的并行文件系统,具备POSIX接口,可直接调用底层平台函数库和硬件,从而进行系统加速优化。本文在PVFS文件系统基础之上提出并实现了小文件合并策略以及针对上层计算引擎的可控分布策略,具体研究成果如下所示:  1.提出一种针对小文件的分布策略block stripe。将多个小文件放在同一个block块中,block中的每个文件都拥有一个fileId。通过blockId与fileId可以唯一确定小文件位置。整个模块都采用PVFS特有无锁机制状态机实现。  2.提出并实现一种集群资源感知的方法。在大数据处理中,通过资源感知区分节点负载,提升节点性能,是资源节点最优化的一个重要方面。该感知模块可以开放给上层JNI接口,使得上层计算引擎MapReduce可以根据资源状况确定所需要的计算节点。  3.实现基于指定节点数的负载均衡可控数据分布策略。通常对于大数据处理的计算与数据是绑定的,控制了数据的分布,就相当于控制了计算节点的选择。本文实现根据需要的节点数,优先选择资源负载较低的节点参与任务,从而实现可控的数据分布。该策略在文件任务较小时,能带来一定的性能提升。  4.基于上述技术,通过改造PVFS,设计并实现了大数据分布式文件系统,既能对大数据处理有效支持和可控分布优化,又能提供POSIX接口小文件数据访问的服务。
其他文献
Web服务发现是Web服务系统架构的重要部分,发现符合用户需求的服务是实现服务复用、组合的重要前提。服务发现的效果直接关系到服务调用的质量,影响到服务组合的相容性和可替换
移动视频检索技术是视频检索领域中一个前沿的研究课题。近年来,移动设备的飞速发展,改变了互联网上视频内容的产生,以及人们检索和观看视频的方式。移动设备的便携性和无处不在
逼真人体运动合成技术是虚拟现实领域内一个非常重要的问题,在增强虚拟环境的逼真性和真实感方面起到重要的作用。它不仅具有重大的理论意义,还具有广阔的应用前景。首先,人体运
本文对ODF与UOF文档标准比对、评价及转换技术的设计与实现进行了研究。文章分别对ODF和UOF两种文档格式进行概述,并针对这两种格式进行各方面的比较和分析,在比较以及深入各元
随着越来越多的J2EE应用被部署,对这些应用以及这些应用依赖的基础设施实施更好的管理成为迫切要求。 现在,存在很多种不同的具体方法和技术,比如Java,管理扩展(Java Manageme
随着计算机网络的迅速普及,网络教育已成为现代教育的一个重要分支,并且正发挥着越来越重要的作用。网络教育软件的设计也随着软件技术的发展不断更新、提高,无论是在安全性、可
网络环境下的分布式系统是目前计算机软件研究和开发的热点和主流,由于分布式软件系统其固有的分布式特性、异构性和自治性,使得分布式系统的开发比较困难。大量的实践表明,集成
本文从理论上分析了真实感图形绘制技术两种算法——光线跟踪算法与辐射度算法,阐述并研究了这两种算法各自的绘制原理,讨论二者在模拟真实感实体颜色的渗透现象上的不同,引出本
在移动网络发展的今天,GSM、CDMA、PHS、WCDMA、TD-SCAMA等多种网络同时并存,不同的网络有着不同的优势。为了给用户提供不同性价比的服务,增加用户选择服务的自由度和满意度
学位
随着科技的发展,现代计算应用领域也越来越多的需要面临大量的高维数据,如航天遥感数据、全球气候模型、生物数据、图像分类系统、金融市场交易数据等。如何从高维数据中有效的
学位