Hadoop小文件存储管理的研究与实现

来源 :北京交通大学 | 被引量 : 11次 | 上传用户:kjc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,大数据时代中的数据信息呈爆炸式的增长,传统的技术架构已经不能满足处理海量数据的需求。Apache基金研发的Hadoop平台迅速被应用到各个领域中,成为了许多企业的首选。Hadoop作为一种海量数据分析处理平台,具有高容错、易扩展、廉价存储等特点,被设计用来存储大文件的存储系统。但伴随着网络社交和移动互联网技术的飞速发展,产生了海量小文件,于是在研究应用中HDFS也被应用于小文件的存储。由于HDFS采用主从式的架构模式,海量的小文件产生的元数据给主节点带来了沉重的内存压力,致使系统读取效率低下,形成了性能瓶颈。针对Hadoop平台处理海量小文件问题具有的节点内存消耗和读取缓慢等缺点,通过现有基于小文件合并的策略和量化分析,可以得到部分解决。但是相关处理方案的索引设计缺陷以及未考虑文件相关性,造成了小文件的读取缓慢,NameNode负载过重,实用性不足等问题。论文针对Hadoop平台处理海量小文件时NameNode内存消耗过度和文件检索效率低下的问题,在吸取其他研究者优秀策略的基础之上和在内存消耗、访问性能量化方法的基础分析之上,提出了基于分钟时间段的合并算法和多级索引的Hadoop处理小文件的优化方案,该方案主要思想是依据小文件的创建时间,选择对应分钟时间段内的小文件进行合并存储,并且依据小文件创建时间到合并文件名称之间的映射关系创建小文件到Block和Block所在的DataNode之间的全局索引。另外依据小文件名称和扩展名建立小文件到具体Block以及Block内地址信息的Trie树索引,并按照扩展名对索引进行分片,建立局部双层索引机制,放置在DataNode内存中以加快HDFS系统小文件检索性能。论文给出了该优化方案在Hadoop集群的具体实现,包括小文件合并、MapReduce自定义输入分片、全局索引和局部双层索引的建立等相关算法的实现,以及主从节点设置等技术问题的解决,此外,还对提出的小文件处理优化方案进行了量化分析。通过对本文提出的小文件优化方案与HAR归档技术进行节点内存消耗,小文件读取速率和小文件合并写入等指标数据的对比测试与分析,实验结果表明,本文提出的小文件合并算法跟HAR归档技术一样有效的降低了Hadoop处理小文件时的NameNode内存消耗过多的问题。另外,多级索引机制则比HAR归档技术所具有的双层索引更有效地减轻了检索小文件时NameNode的内存消耗,提高了系统检索小文件的效率。
其他文献
目前,国内转杯纺纱机水平落后,尽快自主研发出适合国情的全自动转杯纺纱机成为我国纺织机械设计部门当前的首要课题。本课题就是来源于宏大研究院的一个全自动转杯纺纱机的研
射孔是油气井的主要完井方式之一,在世界石油工业中得到了广泛的应用。不同的射孔参数对井的产能有不同的影响。进行射孔参数优化设计并选择合理的射孔方案,对于提高油田技术经
在互联网高速发展的今天,每个人的生活都在发生巨大的变化,世界正在不断地变“平”。随着电子商务,人工智能,虚拟现实等技术的蓬勃发展,人们只要通过互联网,几乎可以足不出户,坐在计
数据集的检索通常使用倒排索引模型进行检索,可以在海量的文本数据获取信息。基于数据集构建倒排索引文件通常十分庞大,压缩倒排索引可以减少空间使用,在相同的内存中驻留更
随着互联网的迅速普及和不断发展,P2P应用已逐渐成为网络的主流。越来越多的用户使用P2P来下载大量的文件,特别是那些视频和音频文件。有关调查表明,P2P业务已悄然占据了互联
轮廓编组计算模型以边缘片段为编组元,以获取具有明确视觉意义的目标轮廓为主要任务,是一种非常重要且极具研究价值的知觉组织计算模型。以此为基础研究图像序列中显著运动目
集群计算技术近年来已成为计算机界研究的一个热点。采用集群技术来解决大数据量或时间复杂度高的问题不仅在计算机界,而且在其它科学领域都是首选的。负载平衡是集群系统中
本文阐述了呼叫中心的定义、其产生和发展的历史以及呼叫中心系统的基本结构,同时介绍了Web Service的定义、重要技术以及与呼叫中心的关系、常用MVC呼叫中心的基本结构及其
地质图件是研究人员的重要参考资料,许多研究成果都是以图形形式表现出来。提高绘制地质图件的准确性、重复利用率等尤为重要。矢量化是最终替代手工清绘图纸的技术手段。经
在大数据时代背景下,云计算得到了广泛的关注和应用。随着云计算不断的发展,同时受到完工时间和成本等因素约束的科学计算流程和商业流程等应用流程日趋复杂。以往的云计算应