HDFS存储机制的分析与研究

被引量 : 13次 | 上传用户：qxff

【摘要】

：

近年来，互联网中数据量激增，一般的文件系统无法存储海量数据，为解决这个问题，研究人员提出了分布式文件系统的概念。目前国内外众多知名企业使用Hadoop处理海量数据。Hadoop是一

【作者】

：

卢俊华

【发表日期】

：

2014年01期

【关键词】

：

分布式文件系统单点失效双机热备大量小文件处理

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来，互联网中数据量激增，一般的文件系统无法存储海量数据，为解决这个问题，研究人员提出了分布式文件系统的概念。目前国内外众多知名企业使用Hadoop处理海量数据。Hadoop是一个可以处理和存储海量数据的云计算平台，它自行实现一个分布式文件系统HDFS。在HDFS中，存在一种称为NameNode的元数据服务器用于存放整个HDFS的元数据信息，还有一种称为DataNode的数据节点用于存放具体的文件数据。一个文件在HDFS中会有多个备份用于保证数据的可靠性，当数据损坏时，可以使用备份数据。本文对HDFS的存储机制进行了分析与研究，主要是分析和研究HDFS中存在的两个问题：大量小文件处理问题和元数据服务器的单点失效问题。针对小文件问题，本文首先分析了Archive归档工具和SequenceFile方案的优点与不足，然后设计一种新的方案Multi-NameNode Cluster。Multi-NameNode不存在单个NameNode的内存性能瓶颈，并且不同的NameNode处理不同的文件请求，因此每个NameNode内存中存放不同文件的元数据，NameNode之间相互独立，且一台NameNode失效不影响其他NameNode的正常工作。最后对该方案进行了模拟实现，并将该方案和Archive方案进行对比实验和结果分析。针对单点失效问题，本文先对Hadoop1.x中的解决方案进行了介绍分析，然后着重分析Hadoop2.x中的QJM方案。QJM的原理在于集群中启动两个元数据服务器和一组日志服务器，处于活跃状态的NameNode把日志写入到日志服务器中，而处于等待状态的NameNode则从日志服务器中读取日志，从而两者中的元数据可以达成一致。在一个NameNode失效后，另外一个NameNode可以快速的接管工作。最后提出RAID方案，在QJM方案的基础上增加一个对日志存储的保护措施，使用独立磁盘阵列对Active NN写入本地的日志进行备份，使得在发生主从切换时能最大程度的恢复日志。

其他文献

镇肝熄风汤治疗出血性中风的理论探讨与实验研究

本文从理论和实验两个方面初步探讨了镇肝熄风汤治疗出血性中风的机制。理论探讨部分回顾了古今治疗中风病的研究概况，提出出血性中风是以肝肾阴亏为本，阳化风动、肝阳上亢

学位

出血性中风镇肝熄风汤转铁蛋白转铁蛋白受体低氧诱导因子脑细胞凋亡

脾阴虚痴呆大鼠海马蛋白质组学及滋补脾阴方药干预的实验研究

背景:阿尔茨海默病(Alzheimer’s disease,AD)是一种中枢神经系统退行性疾病,以潜隐性起病、痴呆进行性加重为特征,严重影响了老年人的认知功能与行为能力。滋补脾阴(Zi-Bu-P

学位

脾阴虚痴呆证病结合滋补脾阴方药蛋白质组学海马

激光时代光峰引领 PROPIX激光超短焦教育投影仪发布

<正>4月8日下午,北京东方光峰科技股份有限公司在北京国家会议中心召开了新公司成立及新产品发布会,宣布东方光峰公司建立及PROPIX激光超短焦教育投影仪的问世。发布会现场聚

期刊

投影仪光电技术PROPIX投影机

高灵敏度自动对焦系统的研究与实现

目前，电子信息技术发展日益迅速，网络技术发展不断成熟，数字图像和数字视频应用的范围也越来越广。在数码相机，数码摄像机等消费电子领域，视频监控安防领域，国防力量军事领域，农林火

学位

自动对焦图像清晰度评价函数Brenner算子电机驱动图像处理

上海成为国际金融中心的影响因素分析：FPI视角

本文研究努力建设一个领先的国际金融中心(IFC)中国国务院早在2009年4月的公告后,上海当地政府的行动。公布以来,上海的国际金融中心地位跃升为排名前10位的全球金融中心指数

学位

国际金融中心FPI金融中心地位banks因素分析equityinvestorFigure证券投资political

耐万古霉素肠球菌医院感染的风险因素及预后分析

目的:分析某三甲医院耐万古霉素肠球菌(VRE)的院内感染情况,为防治VRE引起的院内感染提供参考。方法:选择某三甲教学医院2009～2017年所有VRE医院感染患者49例为观察组,另按1∶

期刊

耐万古霉素肠球菌院内感染危险因素

极量负极词在问句中使用的双向关联分析

极性是指命题情态的肯定和否定倾向。极性敏感词一般分为正极词和负极词,正极词典型分布在肯定句中,负极词则典型分布在否定句中。具有极量的词语容易成为极性词语,本文中,我

学位

极性敏感性极量负极词梯级逻辑自信息信息熵双向关联

我国财政支出与经济增长关系的实证研究

自1978年改革开放以来，至今已取得了辉煌的成果，GDP总量已经跃居为世界第二，经济增长速度30多年间均值超过11%。但是我们也必须认识到问题的存在，我们的人均GDP还没有超越中等收

学位

支出规模内生经济增长支出结构经济增长脉冲向量模型

计算机软件漏洞检测系统的设计与实现

近来信息安全事件频繁发生，并且有愈演愈烈之势。特别是在政府信息系统内，若干起重大经济数据泄露和一起公安机关警务数据失密案件的发生，让信息安全问题成为业界不可忽视的重大

学位

补丁管理漏洞检测网络安全

2014WA中国建筑奖:缘起与观察

<正>建筑奖项与其他文化艺术领域的奖项一样,其初衷是对杰出范例或个人贡献的表彰与集粹。然而,从20世纪中叶至今,随着当代建筑的发展,建筑奖项逐步脱离了单纯表彰与集粹的初

期刊

建筑奖

HDFS存储机制的分析与研究

与本文相关的学术论文