HDFS存储机制的分析与研究

被引量 : 13次 | 上传用户:qxff
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,互联网中数据量激增,一般的文件系统无法存储海量数据,为解决这个问题,研究人员提出了分布式文件系统的概念。目前国内外众多知名企业使用Hadoop处理海量数据。Hadoop是一个可以处理和存储海量数据的云计算平台,它自行实现一个分布式文件系统HDFS。在HDFS中,存在一种称为NameNode的元数据服务器用于存放整个HDFS的元数据信息,还有一种称为DataNode的数据节点用于存放具体的文件数据。一个文件在HDFS中会有多个备份用于保证数据的可靠性,当数据损坏时,可以使用备份数据。本文对HDFS的存储机制进行了分析与研究,主要是分析和研究HDFS中存在的两个问题:大量小文件处理问题和元数据服务器的单点失效问题。针对小文件问题,本文首先分析了Archive归档工具和SequenceFile方案的优点与不足,然后设计一种新的方案Multi-NameNode Cluster。Multi-NameNode不存在单个NameNode的内存性能瓶颈,并且不同的NameNode处理不同的文件请求,因此每个NameNode内存中存放不同文件的元数据,NameNode之间相互独立,且一台NameNode失效不影响其他NameNode的正常工作。最后对该方案进行了模拟实现,并将该方案和Archive方案进行对比实验和结果分析。针对单点失效问题,本文先对Hadoop1.x中的解决方案进行了介绍分析,然后着重分析Hadoop2.x中的QJM方案。QJM的原理在于集群中启动两个元数据服务器和一组日志服务器,处于活跃状态的NameNode把日志写入到日志服务器中,而处于等待状态的NameNode则从日志服务器中读取日志,从而两者中的元数据可以达成一致。在一个NameNode失效后,另外一个NameNode可以快速的接管工作。最后提出RAID方案,在QJM方案的基础上增加一个对日志存储的保护措施,使用独立磁盘阵列对Active NN写入本地的日志进行备份,使得在发生主从切换时能最大程度的恢复日志。
其他文献
本文从理论和实验两个方面初步探讨了镇肝熄风汤治疗出血性中风的机制。 理论探讨部分回顾了古今治疗中风病的研究概况,提出出血性中风是以肝肾阴亏为本,阳化风动、肝阳上亢
背景:阿尔茨海默病(Alzheimer’s disease,AD)是一种中枢神经系统退行性疾病,以潜隐性起病、痴呆进行性加重为特征,严重影响了老年人的认知功能与行为能力。滋补脾阴(Zi-Bu-P
<正>4月8日下午,北京东方光峰科技股份有限公司在北京国家会议中心召开了新公司成立及新产品发布会,宣布东方光峰公司建立及PROPIX激光超短焦教育投影仪的问世。发布会现场聚
目前,电子信息技术发展日益迅速,网络技术发展不断成熟,数字图像和数字视频应用的范围也越来越广。在数码相机,数码摄像机等消费电子领域,视频监控安防领域,国防力量军事领域,农林火
本文研究努力建设一个领先的国际金融中心(IFC)中国国务院早在2009年4月的公告后,上海当地政府的行动。公布以来,上海的国际金融中心地位跃升为排名前10位的全球金融中心指数
目的:分析某三甲医院耐万古霉素肠球菌(VRE)的院内感染情况,为防治VRE引起的院内感染提供参考。方法:选择某三甲教学医院2009~2017年所有VRE医院感染患者49例为观察组,另按1∶
极性是指命题情态的肯定和否定倾向。极性敏感词一般分为正极词和负极词,正极词典型分布在肯定句中,负极词则典型分布在否定句中。具有极量的词语容易成为极性词语,本文中,我
自1978年改革开放以来,至今已取得了辉煌的成果,GDP总量已经跃居为世界第二,经济增长速度30多年间均值超过11%。但是我们也必须认识到问题的存在,我们的人均GDP还没有超越中等收
近来信息安全事件频繁发生,并且有愈演愈烈之势。特别是在政府信息系统内,若干起重大经济数据泄露和一起公安机关警务数据失密案件的发生,让信息安全问题成为业界不可忽视的重大
<正>建筑奖项与其他文化艺术领域的奖项一样,其初衷是对杰出范例或个人贡献的表彰与集粹。然而,从20世纪中叶至今,随着当代建筑的发展,建筑奖项逐步脱离了单纯表彰与集粹的初
期刊