Hadoop中海量小文件存取关键技术的研究与实现

被引量 : 0次 | 上传用户:cuisong521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,每天产生的数据量正呈爆炸式增长,传统的数据处理技术很难快速有效地处理海量数据。在此背景下,Hadoop作为一种高效处理海量数据的框架而得到广泛应用,其底层文件系统HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)是运行在普通廉价机器上的分布式文件系统,可以平滑扩容,并提供高吞吐量的数据访问,适合大规模数据集的处理。HDFS采用“主/从”结构,由一个名称节点(NameNode)和多个数据节点(DataNode)组成。Hadoop设计之初是为了处理大文件,系统中每个文件会在名称节点的内存中生成与其对应的元数据,元数据的大小与文件大小无直接关系,因此,若系统中存在海量小文件,则名称节点的内存无法容纳如此大量的元数据,从而导致其内存的大小会成为系统扩容的瓶颈。然而,在如今的互联网时代,各种社交软件、博客、购物网站等每天会产生大量小文件;在网络硬盘中,用户上传的文件大多是文档、图片、音频等小文件,这给Hadoop的应用带来很大的挑战。针对Hadoop在存储小文件时效率低下的问题,本文提出基于文件合并技术解决这一问题,基本思想是将多个小文件合并为大文件,并建立小文件到大文件的映射。针对Hadoop中海量小文件的检索效率问题,本文采用R树、倒排索引以及预处理器端全局映射管理技术,提供了依据文件名和文件元数据分别进行检索的方法。最后,通过搭建Hadoop平台并实现本文所提出的方案,对所提出的算法进行性能测试,结果表明,本方案可有效提高Hadoop在处理海量小文件时的存取效率。
其他文献
经济全球化趋势和全球多式联运网络的形成推动了资源的自由流通和优化配置,改变了制造产业的空间分布形态.本文针对经济全球化背景下制造产业的选址优化问题,提出选址优化与
此文在冯承钧、陆俊岭所撰《西域地名》成果的基础上,对《元史郭侃传》记录成吉思汗与旭烈兀的两次蒙古西征,在历史地理方面做了一些考释。可以肯定地说,《郭侃传》真实而具
为掌握多年生作物林果业的生产机械化发展现状,十分有必要建立一套指标体系来评价其生产机械化水平.从统计具有可操作性角度出发,对林果业概念界定、指标及权重设置、评价方
通过走访农户、实地调查对云南省新平县这一典型的山区贫困县发展特色产业——竹产业所产生的经济、社会、生态效益进行了考察,在收集大量一手、二手资料的基础上,针对其实际
一封空邮信柬满载着新年祝福于1999年的新年前夕悠悠扬扬飘落在我的写字台上。我微微一怔。当今的香港,亲朋之间有书信来往实在是稀罕而珍贵的“礼物”了。香港是世界上资讯最发达
<正>DSP在移动通信终端产品中是实时处理声音编码/解码、声音识别和活动图像的关键器件。世界各大半导体制 造商,对于DSP的研究与开发都给予高度重视,各自都为 多争取一些
环境资源商品化体现了环境资源的生态价值与商品价值属性的有机统一,我国逐步推行、发展了环境资源有偿使用的方式,并取得突出进展。文章概述了在党中央大力推进生态文明建设
本文给出了用三次函数近似拟合需求率符合产品寿命周期变化规律的库存模型,得到了这一模型的整体最优解,并付诸实际应用
随着地理信息系统技术的迅速发展,其在流行病学研究领域中的应用逐步深入并扩展开来。近年来,该项技术在中国正逐步被引入慢性病的流行病学研究中,在慢性病空间分布的预测分
<正>弹簧管式压力表(以下简称"压力表")主要是根据弹性元件在被测压力的作用下,产生弹性变形的原理来测量压力。弹性元件由于受温度变化的影响,将会引起材料的弹性模量E的改