基于HDFS的小文件存储关键技术研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:cklove111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
云存储系统为存储大规模数据应运而生,其底层采用分布式文件系统作为存储平台。HDFS(Hadoop Distributed File Sysytem)是开源的云计算平台Hadoop提出的分布式文件系统,其设计简单,应用广泛。但是HDFS的设计初衷是为了处理大文件的,而目前随着互联网的发展,产生了越来越多的小文件需要处理,这给HDFS带来了挑战。HDFS采用单一的元数据节点NameNode来管理整个系统的元数据信息,并且为了提高访问效率,将元数据存储在内存中,但是当系统中存储着大量小文件时,会产生非常多的元数据,占用较大的NameNode内存,使其工作性能受到影响。此外,大量的小文件访问,需要频繁向NameNode发送请求,造成NameNode节点超负荷工作,成为系统整体性能的一个瓶颈。为了解决这个问题,使HDFS能适应小文件的存储,本文进行了相关研究,主要包括:对HDFS的系统架构设计和工作原理进行了深入了解。本文提出一种基于合并策略的HDFS小文件存储解决方案,并给出改进的系统架构。新的方案将小文件合并成为大文件进行存储,并创建相应的索引,在文件读取时,设计恰当的数据预取和缓存策略,提高访问效率。此外,为了进一步提高小文件合并之后的查找访问效率,本文将小文件进行分类标记,并按文件大小分别合并,并在NameNode端存放小文件标签的哈希索引和大文件块的B+树索引以及不同尺寸小文件相应的块内索引。然后,还设计了三级缓存策略,利用缓存来减少小文件访问时请求NameNode的次数,提高效率。最后,分别通过多组实验证明,本文提出的方案能有效提高小文件访问效率,减少NameNode内存开销。
其他文献
近年来,由于国家GDP的快速增长、国民可支配收入的快速增加,以及城市化进程的快速推进,城市的机动车辆的保有量与日俱增,作为承载社会经济活动的基础设施,在给人们的生活带来了极
“精细农业”(Precision Agriculture)从上世纪80年代提出至今已有30多年,如今精细农业已是结合全球卫星定位技术(GPS)、地理信息技术(GIS)、遥感技术(RS)的新型农业生产体系
大量实践证明,减少油气田勘探时间具有巨大的经济效益,在石油勘探阶段,大部分时间耗费在地震资料的地质解释上。地震资料解释的难点是断层和地层的检测。本课题本着加快地震资料
随着互联网的发展,可以获取和利用的图像信息越来越多,如何从这些图像信息中检索出自己需要的图像信息成为当前比较活跃的研究领域之一。形状特征作为图像低层特征之一,作为
随着计算机信息技术的发展,尤其是互联网的兴起,各个应用领域原有的单机系统迫切需要进行集成整合。以新兴的SOAP协议为基础的Web Services应用体系,恰恰可以作为系统平台整
为了保证Web应用程序的质量,Web应用必须进行相应的测试。随着Web应用程序规模和结构复杂性的增加,回归测试行为往往受到时间等资源的限制。因此,Web测试效率亟待提高。越来越多的自动化测试工具正在被广泛使用,这些工具能在一定程度上提高Web测试效率。但在回归测试中,固定不变的网页元素定位器十分脆弱,往往会导致测试用例失效。为此,本文提出相应的方法来自动生成网页元素XPath定位器,通过爬取网页页
学位
随着因特网的普及和多媒体处理技术的迅猛发展,多媒体信息的共享己成为网络时代的主题,但随之而来的是数字化信息的安全性面临着严峻的挑战。因此,对网络传输中的多媒体信息
随着LTE网络建设的快速发展和4G用户的不断攀升,对无线网络的需求越来越高,网络质量成为影响用户满意度的关键因素。如何在网络快速发展的情况下对4G网络进行优化,提高网络利
随着智能手机功能的增强和移动互联网的普及,智能手机占手机总数的比重飞速增长,针对智能手机的恶意程序和黑客攻击也逐渐增多。但智能手机的安全防护水平还停留在初级阶段,
在计算机辅助近景摄影测量系统中,用相机从不同方位对场景拍摄一组照片,在计算机上对该组照片上的目标点进行标记,获得各个标记点在不同照片中的二维坐标值,经过一系列算法,