基于HDFS的小文件处理优化方法研究

来源 :东北林业大学 | 被引量 : 1次 | 上传用户:q520fang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的高速发展,数据呈现指数增长的趋势,海量数据的存在对于社会与科技的发展是机遇也是挑战。大数据给传统的技术带来了难题,海量的数据存储与处理得到了社会各界广泛关注。而在海量数据中,包含了很大比例的小文件。小文件以各种形式存在人们的生活中,怎样从海量小文件中挖掘出信息潜在的价值,将其用于解决人们的实际生活中,是目前急于解决的问题。Hadoop作为开源式云计算平台,一经发布便广受国内外专家学者的关注,各大互联网公司更是将其应用于公司的发展中。HDFS(Hadoop Distributed File System)是Hadoop的分布式文件系统,拥有高可靠,高并发,高可用,高容错等特点。HDFS对于大数据的存储与处理十分有效。然而HDFS的主从架构模式的特点在海量小文件存储与处理方面存在一定的弊端,海量小文件的元数据量成为了制约NameNode的瓶颈问题,并且严重影响了小文件的读取效率。针对HDFS存储与处理海量小文件效果不佳的问题,本文提出一种动态队列的方案,减少NameNode中的元数据,并采用预取缓存策略,提高小文件的读取效率。本文的主要工作如下:(1)分析研究了 HDFS在存储以及处理海量小文件时存在的问题,以及现有的研究方案的优势与不足之处,通过分析研究HDFS的体系架构与工作原理来找出其处理海量小文件所在问题的根本原因,并加以探究。(2)针对HDFS存储以及处理海量小文件性能不佳的问题,本文提出了一种动态队列的解决方案。首先通过层次分析法,将NameNode内存消耗、文件合并速度以及文件下载速度作为三个评价指标,分析各指标在小文件存储处理上的系统性能中所占的权重。其次利用改进的log函数数据标准化方法将实验得到的三个指标数值进行数据标准化,对系统进行定性问题定量化的评判,然后计算得到系统的性能变化趋势。根据无单位无量纲的纯数值的系统性能变化趋势确定小文件的不同范围,然后再通过三个评价指标计算出每个数据范围的最佳队列大小。采用基于符号的文本相似性检测方法对文本小文件进行相似性检测。最后为不同范围的小文件选择最佳队列进行合并后存储,减少NameNode的元数据的内存消耗,设计二级目录与预取缓存策略,提高小文件的读取效率。并且通过实验,将本文的动态队列的方案与直接使用HDFS以及使用单一队列存储处理小文件的方式进行对比,证明本文的动态队列方案可以有效的减少元数据量,并且提升小文件的读取效率。
其他文献
占空比无线传感器网络中,由于节点大部分时间处于休眠状态,接收数据的机会减少,加剧了发送节点间的竞争,尤其是在密集网络中,竞争更为严重,因此,常常出现并发传输数据的情况
储层保护是将有限的油气资源最大化利用的一项非常重要的手段,入井流体是储层保护技术的重要组成部分。长期以来,入井流体的研究建立在大量的实验基础之上,针对不同储层不同
随着智能机器人在非结构化应用环境下的快速发展,其对触觉传感技术的需求亦与日俱增。触觉传感阵列装载在智能机器人手上,在手指滑动过程中可用于滑移、纹理识别等触觉感知,进而提高机器人的智能化水平。本学位论文结合国家自然科学基金(项目编号:51575485)和浙江省自然科学基金杰出青年项目(项目编号:R19E050011),开展了柔性触觉传感阵列的力学理论建模,并在此基础上对传感阵列的滑移检测方法和物体表
面向服务的软件体系结构中,将软件系统的功能看作是软件系统所提供的服务。随着软件系统复杂性的不断增长,当前的主流软件开发模式均倾向于尽可能使用系统所提供的或所开发的
城市的发展离不开规划。改革开放以来,规划在促进经济社会全面协调发展、改善城乡生活环境等方面发挥了重要作用。政府各部门为实现发展目标纷纷编制了各自领域的规划。但由于缺乏统领全局的综合规划,我国空间规划体系呈现多规并行、各自规划的状况,各类规划缺乏协调,内容重叠冲突,部门交叉管理、事权不清,造成了规划难以实施,建设项目落地难。城乡规划作为政府干预的一个重要手段,规划的编制与实施涉及到政府各部门、市场和
《主题变奏曲》以歌曲《卖汤圆》的主题为创作素材,通过丰富的变奏手法和多样化的演奏技法创作而成。是一首专门为钢琴而创作的独奏乐曲,着力展现钢琴宽广的音域和丰富的表现
随着当今世界发展的异常迅速和人们对各种能源的需求越来越高,而地球上的不可再生能源日益减少,因此人们将目标转向新能源。基于此,本文对光储型直流微电网中双向AC/DC变流器的运行模式进行了深入分析,提出了基于传统PI控制的新型双闭环控制策略和基于自适应滑模改进型模型预测直接功率控制策略,并建立了相应的仿真模型,最后通过实验验证该策略的可行性。本文的研究内容如下:(1)介绍了光储型直流微电网的整体结构,
作为一般逻辑连接词的推广,直觉模糊逻辑连接词的特殊情形已有研究,并应用于直觉模糊粗糙集理论的研究中.然而,作为更一般的情形,直觉模糊逻辑系统及其与直觉模糊粗糙集之间
哲学体系来源于我们的语言逻辑构架体系,而哲学的思考又直接影响了各个时期的艺术面貌。瑞士语言学家索绪尔创立了结构主义,但只适用于于语言学范畴,罗兰·巴特将索绪尔的语
储层保护涉及大量实验分析以及现场测试,积累了许多不同储层的实验数据和保护经验。这些资料为制定储层保护技术方案提供数据支持。然而,目前塔里木油田储层保护数据库建设还