基于HDFS的海量小文件存储系统设计与实现

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:tradingart
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,企业和个人数据都呈现爆炸性增长的趋势。谷歌首席执行官EricSchmidt表示,现在全球每两天所创造的数据量等同于从人类文明至2003年间产生的数据量的总和。如何存储海量的数据,成为当前存储系统所面临的巨大挑战。传统集中存储方式已经满足不了数据存储的需求,于是出现了用于大规模数据存储的分布式文件系统,如Google File System(GFS)、Hadoop File System(HDFS)、PVFS、Luster等。这些分布式文件系统具有良好的可扩展性和容错特性,能够满足海量数据存储的需求。但是在很多应用场合除了要求支持海量大文件的存储,还需要支持海量小文件的存储。虽然GFS、HDFS等分布式文件系统能够满足大文件的高效存储,但在存储海量小文件时,效率却很低。针对此问题,工业界和学术界提出了很多方法,但普遍存在性能低,系统可靠性不高,不能高效存储小文件元数据等问题。针对这些挑战,本文设计实现了一种基于HDFS的海量小文件存储系统。该系统的主要设计思想是,在HDFS现有的目录树结构下,将一个文件夹内的小文件,打包成一个大文件进行存储,该文件称为小文件数据文件。同时生成小文件索引,记录小文件在对应数据文件中的位置。本文设计和实现的基于HDFS的海量小文件存储系统是可扩展、高容错、分布式的海量小文件存储集群系统。本文提出小文件聚合存储技术通过将小文件数据存储在HDFS数据文件中,实现数据的分布式存储和容错;同时提出小文件分布索引管理技术将索引分布到各个数据节点管理,解决了单一元数据节点在存储海量小文件成为瓶颈的缺点;设计的海量小文件存储系统索引容错机制通过对索引进行容错,降低小文件丢失的风险;通过在单个目录下创建多个多数据文件,解决访问同一目录下小文件冲突的问题。在以上基础上,系统在客户端缓存用户常用到的小文件索引位置及数据文件流的信息,提高系统的文件访问的效率。通过实验表明,该系统小文件读写延迟、吞吐率与不增加小文件支持的原生HDFS相比有了很大的提高。并且,该系统能够有效解决海量小文件存储元数据过于庞大的问题,且通过索引容错机制,提高了该系统的可靠性。
其他文献
个人信息的流通在科技以及商业等领域的价值愈加凸显,个人对于有关自身的个人信息在公私领域是否合理使用的关注程度日益增强。与此同时,个人信息在中国被非法利用的问题却屡见
随着我国城镇化、工业化的进一步推进,乡镇企业迅猛发展以及公共基础设施建设用地的扩大,为农村地区建设用地的活跃流转创造动力条件。但我国农村地区有关集体建设用地的政策和
非政府组织作为一个重要的研究课题,对民主政治的构建及公民社会的形成意义重大,如何落实非政府组织的公共责任与监管制度,加强非政府组织的内在约束与外在控制,直接关系到其自身
21世纪是“绿色”世纪。绿色物流作为当今低碳经济时代可持续发展的新兴产业,在强有力的金融支持下,其发展将推使我国国民经济可持续发展达到新的利润增长点。对绿色物流金融
随着社会经济的快速发展和科学技术的不断进步,社会分工越来越细密,人与人之间相互依赖关系也日益加深,多数人侵权发生的损害规模及损害程度亦随之提升,并成为侵权法规范的重要问
目的:探讨精准肝切除治疗肝胆管结石的临床效果。方法:回顾性分析我院2006年3月~2014年2月行精准肝切除(32例)和传统肝切除(27例)治疗肝胆管结石的病例资料,比较两组患者手术平均时间
目的:总结汪龙德主任医师从湿论治脾胃病方面的临证思维、用药经验。突出中医药治疗脾胃病的优势,提高中医药辨治脾胃病的临床疗效,让更多患者受益。方法:通过跟随导师临床,如实采
目的:研究早期CPM锻炼对胫骨平台骨折术后膝关节功能康复的临床意义,通过观察胫骨平台骨折切开复位内固定术后早期CPM被动功能锻炼患者的近期康复情况,评价CPM的治疗效果和临床
近年来Web2.0高速发展,移动互联网技术得到不断普及,世界已经进入了以数据为中心的范式——“大数据(Big Data)”时代。从大数据量、结构复杂且增长迅速的数据中寻找到有价值的
乡村社会治理历来是党和国家关注的重点。在2013年中央一号文件中就特别指出,“要不断推进农村基层民主政治建设,提高农村社会管理科学化水平,建立健全符合国情、规范有序、充满