面向海量小文件存取的HDFS优化研究

被引量 : 8次 | 上传用户:yang97yang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Hadoop是近几年发展比较成熟的云计算平台之一,凭借其可靠,高效,可伸缩的特性在互联网领域得到了广泛应用,比如Yahoo、Amazon、Facebook等公司成功地应用了Hadoop,同时也得到了学术界的普遍关注。HDFS作为Hadoop的分布式文件系统有着高可用的特性,但它是为大文件的存储与计算而设计,却忽略了对小文件处理的优化,当大量的小文件存储到HDFS中就会产生大量的元数据,因而占用NameNode大量的内存。而对海量小文件高并发的访问使得HDFS的NameNode和DataNode都负载过大。这使得HDFS不适合存储小文件。针对HDFS在小文件处理的不足,本文提出了一个基于HDFS的中间件HMFS来解决HDFS的小文件问题。它由用户接口层、任务层和存储层组成。能够很好的实现对小文件的上传、下载、修改、删除操作。并且它所有的任务都在后台运行,通过读写分离机制大大地提高文件的上传效率,通过缓存预取机制提高了文件的下载效率。在小文件合并的优化方面,本文提出了SmartFS。SmartFS通过分析小文件访问日志,获取用户访问行为,建立文件关联概率模型,并根据基于文件关联关系的合并算法将小文件组装成大文件后存至HDFS;当从HDFS获取文件时,根据基于文件关联关系的预取算法来提高文件访问效率,同时采用基于预取的缓存替换算法Prefetching-LFU来管理缓存空间,提高文件的命中率。最后,本文将HMFS与SmartFS的优点相结合,设计并实现一个基于HDFS的通用高效的小文件系统,该系统使用HMFS进行在线的文件处理,如文件上传、下载、更新及删除。并使用SmartFS来分析历史的访问日志得到文件关联,再将相关联的文件重新合并上传到HDFS中。在预取与缓存策略上,它结合HMFS与SmartFS两种情况进行预取与缓存,保证了各种情况的高效运行。实验表明该系统的上传,下载速度相对HDFS有极大的提升,且减少了HDFS元数据量,使得HDFS能够支持海量的小文件处理,并且它能将相关联的文件合并提高了预取与缓存的效率。综上,该系统是一种通用且高效的HDFS小文件解决方案。
其他文献
微波传输线是微波系统的重要组成部分。随着微波系统向高频化方向发展,传输线中的不连续带来的信号完整性问题越发凸显并受到广泛的关注。针对微波裸芯片临时封装夹具系统,设
城际高铁开通后,乐山旅游在区位、交通、资源、品牌等各方面的优势将全面激活。为此应强化顶层设计,观光度假并重,构建大峨眉文化旅游联盟,提升旅游产品商品化水平,推进区域
通检《礼记正义》,孔颖达"郑玄未见《古文尚书》"之言凡有七处。此论有违事实,据文献可知,郑君少习《古文尚书》,且后来有《古文尚书注》传世。孔《疏》之误,缘于不识东晋枚
从公众图书馆使用情况的4个方面分析对图书馆员刻板印象的影响,结果显示:对图书馆服务感到满意的公众在图书馆员刻板印象各维度上的评价指数与不满意者均存在显著性差异,到馆
日本自2002年以来为培养学生的"生存能力",开始实施以"宽松教育"为主旋律的基础教育课程改革。这次改革既受到日本社会各界的广泛注目,也遭到了众多非议。特别是随着近年来"
本文根据应用型人才培养的要求,结合电子商务专业网店运营实务课程的特点和教学目标,探索实战教学模式,培养学生运营网店的专业知识、操作技能和职业素养,以适应企业对电子商
改革开放以来,随着我国的住房制度改革逐步深化,物业管理已经成为人们生活、工作的重要组成部分。但是,据相关的最新数据显示,物业管理纠纷已经成为社会稳定的重要威胁。其背
产业创新是国家创新体系的重要组成部分,是产业可持续发展和国家竞争力提升的重要支撑。本文在现有产业创新研究文献基础上,对产业创新的概念、基础理论及其能力评价研究进行
随着我国经济水平的不断提升和建筑工程整体水平的持续提升,建筑施工单位财务风险及控制对策得到了越来越广泛的应用。本文从阐述建筑施工单位财务风险入手,对建筑施工单位财
<正>清嘉庆十三年冬腊月,雷声隆隆,大雪纷飞。金銮殿上,嘉庆皇帝闻听吏部呈报,赴江苏淮安查赈委员李毓昌贪赃自缢身亡,愤慨之至。又闻都察院奏报李毓昌之妻林素珍率楚燕、李