Hadoop小文件处理技术的研究与优化

被引量 : 4次 | 上传用户:jj978163com
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,数字信息呈现指数级的增长,人类已经迈进了大数.据的时代。在数据存储和计算方面,传统的方法已经显得越来越没有优势。怎样高效以及合理地存储计算大批量数据已经成为国内外各行各业关心的重点。鉴于对数据计算以及数据存储的高要求,云计算的概念由此产生。随着云计算技术的迅速发展,存储和计算成为最热门的研究范畴。Hadoop是Apache基金会的一个开源的项目,它在分布式存储以及分布式计算方面表现出杰出的性能,引发了国内外广泛的关注,目前,越来越多的高校以及企业都开始应用Hadoop支撑自己的业务与需求。尽管Hadoop是专门为存储和计算大数据而设计的,但是当Hadoop存储小文件时,会给主节点带来巨大的内存压力,影响文件的访问效率,并且间接影响MapReduce编程模型的计算效率。本文基于Hadoop的MapReduce计算模型和HDFS分布式文件系统两个核心内容,着重研究了基于Hadoop的小文件处理技术的通用优化。为了解决Hadoop技术在存储和计算小文件时会给NameNode节点造成内存的浪费、读取文件效率低下以及MapReduce模型计算效率低的问题,首先研究Hadoop本身自带的小文件处理技术,深入分析了它们的优缺点,并分别从MapReduce层面和HDFS层面对Hadoop进行研究与优化,提高Hadoop存储、计算小文件的效率。在MapReduce层面,对MapReduce的执行流程以及InputFormat体系结构进行深入研究,详细分析MapReduce源代码以及内部方法的具体实现。通过深入研究以及实现CombineFileInputFormat抽象类,在MapReduce层面对小文件的输入格式进行合并,提高了Hadoop对小文件的计算效率。在HDFS层面,本文提出一种具有独立小文件处理模块的分布式文件系统,它不依赖于HDFS,整个模块可以和Hadoop集群做到很好的解耦,互不影响。此模块对小文件进行合并,索引映射以及读取,并加入小文件缓存模块,提高文件的访问效率,并间接提高MapReduce在计算处理小文件时的效率。最后,通过实验验证,自定义的CombineFileInputFormat在MapReduce的处理效率上高于其他的输入格式。独立的小文件处理模块,也加速了对文件的访问,并且降低了主节点的内存压力。
其他文献
为满足动态目标与传感器等实时观测数据获取、存储、管理、分析与可视化的要求,需要发展一种新型地理信息系统——实时GIS。本文根据实时GIS中各种地理要素的特点以及存储管
干部选拔路径是干部制度的重要内容,是干部队伍建设的关键环节。中共十一届三中全会以来,为适应改革开放和社会主义现代化建设的客观需要,我国干部制度也进行了多方面的改革,
近些年来,酒店人才竞争非常激烈,人员流动大,大量开发实习生资源成为一种趋势。实习生对许多酒店发挥越来越重要的作用。但现实中,酒店在实习生管理方面还存在诸多的问题。从
<正>性别角色是儿童心理发展的重要内容。本研究总结了性别角色的主要理论流派,介绍了国内外性别角色发展理论的研究成果,并就当前性别角色的研究现状作简要分析和评价。1概
维康松霜治疗脂溢性皮炎62例刘斌(西京医院皮肤科西安710033)关键词维康松;脂溢性皮炎;治疗中图号R758.732脂溢性皮炎是生长在皮脂溢出部位的一种炎症性皮肤病,多见于头面、胸背部.多年来,一直延用激
对建筑用6061铝合金进行了不同温度的均匀化退火处理,采用光学显微镜(OM)、扫描电镜(SEM)和能谱仪(EDS)对比分析了铸态和热处理态6061合金的显微组织的变化,研究了6061合金热
本文从教学内容的处理、目标确定、设计思路以及教学过程四个方面探讨了“物质跨膜运输的实例———水分的跨膜运输I”这部分内容探究式教学的基本过程和方法。通过改进、补
为了更好地确定和引导中期政策利率,央行选择了一种新的基础货币投放工具——抵押补充贷款(PSL)。本文介绍了PSL的内涵、特点及影响,并论述了PSL在我国的初次应用。
城市公共交通作为典型的公共事业,为城市居民提供基本的交通出行条件。只有科学合理的调配线路,加大城市公共交通的运力,降低票价,才能从根本上解决城市交通问题。公共交通行
<正>王刚:解决疼痛最快捷的方法,药物为主,因为疼痛是时间沉淀的结果。而心理治疗可能需要较长时间。但全面解决疼痛问题,需要进行心理治疗,提高患者对疼痛的接纳(提高认知等
会议