HDFS分布式元数据管理框架的研究与实现

来源 :东北大学 | 被引量 : 3次 | 上传用户:kkhaizi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,云计算不论是在国内还是在国外都受到了越来越多的关注。而Hadoop则被认为是当前主流的、使用最广泛的云计算开源平台。作为Hadoop的首选底层存储系统,HDFS(Hadoop Distributed File System)以其能够可靠的存储大规模数据的能力极大的推进了Hadoop的发展。然而,HDFS采用单节点管理虽然可以降低系统的复杂度,但是严重影响了系统的可靠性,并限制了系统的扩展性。对于HDFS的“单点”问题,不论在社区还是在企业都提出了一些解决方案,然而至今没有一个被大家广泛认同的解决方案。本文在仔细剖析当前主流解决方案优缺点的前提下,提出了一种HDFS分布式元数据管理框架(Distributed meta-data Management Framework, DDM)。通过使用分布式元数据管理框架不仅能够解决HDFS的“单点”问题,还能够有效提高文件系统的并行性与吞吐量。为了能够更好的适应当前的云环境中大规模数据处理和海量节点管理的要求,本文设计的元数据管理框架摒弃了HDFS将命名空间与文件块元数据统一管理的设计思路,而采用分层管理的思想,将命名空间的管理与文件块元数据的管理放在不同的层中,提高了HDFS的灵活性与扩展性。之后本文给出了HDFS这两类最重要元数据的分布算法与调整策略。在此基础之上,针对分布式框架设计了相应的管理机制,包括节点的加入与退出,副本的管理与恢复以及元数据的同步与迁移等,并针对HDFS设计上的一些不足做出了改进,以保证分布式元数据管理框架的正确性,高效性和可用性。在分析HDFS关键代码的基础上,分布式元数据管理框架最大程度的利用了HDFS已有的代码和机制,并对部分代码进行重构以提高其可读性、合理性并降低分布式管理框架的耦合性。最后,通过实验测试了DMM对HDFS读写性能,启动性能以及并行性的影响,并测试了分布式元数据管理框架的可用性与扩展性。实验结果表明,分布式元数据管理框架虽然在读写性能和启动性能上略逊于HDFS,但是在并行性、可用性与扩展性上都优于HDFS,能更好的满足Hadoop的应用环境。
其他文献
混沌同步在物理学,电子工程学,生物科学研究中,在实际应用中,由于混沌系统的动态行为对系统初值及参数之变异非常灵敏,且混沌轨迹具有不可预测的特性,这种情况下,迫切需要一
由于互联网技术以及新的科学/工程技术的进步,以图作为存储模式的应用数量不断地增加,如在生物信息学、社会关系学、万维网等。而由于测量方法的不准确性以及对数据测量时引入
随着互联网的广泛应用,网络安全问题日益突出。网络蠕虫凭借其强大的自我复制和持续扩散能力,对网络造成了巨大威胁。蠕虫攻击的目标主机一般是有0-day漏洞的主机或持续无补
下一代网络和融合业务支撑环境有利于快速、灵活的业务开发和部署,从而使网络运营商达到提高网络使用率、增加收益的目标。业务生成环境作为融合业务支撑环境中的主要实体之
随着互联网的发展,万维网的信息量成爆炸式增长。海量的信息使得用户查找、表示和维护信息十分困难。其原因之一是信息的存储只是对信息的简单罗列,计算机不能从知识的角度去
随着中国的中小企业的实力不断加强,规模的不断扩大,相关硬件建设进一步完善提高,办公网络化、资源数字化、管理科学化也成了必需要跟上的一大发展问题。为了实现企业管理的
目前3G的无线性能得到了较大的提高,但是在满足用户需求等领域,还有很多局限。现在对未来通信系统的要求已经超过现有网络的承载能力,寻找突破性的网络结构势在必行,于是LTE
如今,协议测试在保证协议实现正确性方面发挥着越来越重要的作用。在传统的协议测试环境下,测试用户需要自己开发或者购买已经开发好的测试工具,还需要将测试工具与被测设备