HDFS下文件存储研究与优化

被引量 : 15次 | 上传用户:kongs874
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来云计算得到广泛的研究与应用,并迅速成为计算机领域最为热门的话题。云存储是在云计算概念基础上延伸和发展出来的一个新概念,其中又以Hadoop框架的HDFS存储系统最为著名。研究发现,网络中存在大量的重复数据,数据的重复存储会对空间造成极大浪费;而且小文件数量众多,加之读写请求频繁,所有的请求都由HDFS系统中唯一的NameNode进行处理,会导致整个系统性能急剧下降。论文首先对Hadoop系统架构及实现技术进行了全面分析,并介绍了重复数据删除相关技术,同时分析了HDFS在处理大量小文件时存在的不足,为论文的下一步研究提供理论依据。本文在传统HDFS体系架构的基础上,提出了一种新的HDFS体系架构,并对元数据管理和文件操作流程进行了设计。针对网络中存在大量重数据及小文件的问题,分别设计了相应的处理策略。本文的主要研究内容和创新点如下:(1)基于传统的HDFS提出了一种新的HDFS体系架构,即在每个机架新增一台NameNode负责本机架事务的处理。分析了主NameNode和机架内NameNode元数据缓存及恢复机制,并对文件操作的元数据获取过程进行了重新设计。(2)针对重复数据的问题,本文采用双重认证的方式。首先设计了关键词提取策略,对提取结果进行哈希计算,在此基础上结合文本相似匹配技术完成重复数据的判定。此策略避免了固定长度分块重复数据删除技术的弊端,对重复数据的判定更加智能化,在节省存储空间的同时加强了重复数据删除的准确性和科学性。(3)针对小文件的处理,结合小文件合并方案,对元数据的结构、缓存内容以及更新机制进行了分析。同时,对小文件读、写和删除操作流程进行了详细分析设计。由于将小文件进行合并,节省了系统存储空间,且机架内NameNode完成了本机架内大部分请求的处理,有效缓解了主NameNode负担,从而进一步优化了系统性能。根据设计方案,文章最后进行了相应的仿真实验,从实验结果可以看出,本文的设计在重复数据删除的准确性和科学性、小文件I/O速度及NameNode内存使用率与CPU使用率等方面的性能都有不同程度地提升,从而说明了设计的有效性和科学性。
其他文献
中国审计实证研究自1999以来,已经取得了长足的进展。本文拟对国内主要学术刊物发表的审计实证研究文献进行综述,主要考察审计实证研究所得到的结论以及审计实证研究中所存在
<正> 刚刚召开的党的十四届五中全会反复强调,"必须把社会主义精神文明建设提到更加突出的地位",对今后五至十五年加强社会主义精神文明建设的重要性、必要性、紧迫性和着力
本文讨论网络语言的交际性质和学术意义。文章在归纳网络语言的语言学和非语言学方面的争议的基础上,讨论了网络语言的语言价值和语言学价值,并进而指出,只有重视考察语言交
存货审计非常重要,过程非常复杂。审计人员在进行存货审计的过程中有效选择正确的审计方法对存货储存、存货采购和存货发出进行审查,并对存货资产的完整性和有关会计信息的正
对电化学氧化法在垃圾渗滤液处理中的应用和研究进展进行了论述,分析了电化学氧化法中存在的问题,并提出了未来的主要发展趋势,以合理、有效地处理垃圾渗滤液。
本研究以泰平王鸽为研究对象,通过研究孵化后期及出壳后两周内小肠形态、消化酶活性和小肠消化吸收相关功能基因表达的变化,揭示鸽早期发育阶段小肠的消化生理特性。在此基础
目的:通过对2011年1月~12月通化地区3296例手足口病患者的性别、年龄、发病时间、患者人群、地区分布和病原学检测结果的分析,探讨通化地区手足口病的流行病学特征。通过对2011
本文探讨了建立国际汉语教学学科的必要性、国际汉语教学与传统的对外汉语教学的关系,阐述了对外汉语教学向国际汉语教学的转型、汉语国际传播研究与国际汉语教学的学科建设
结合工程实践经验,探讨了钻孔灌注桩的施工技术及施工质量控制方法,尤其对钻孔灌注桩在施工准备阶段、成孔阶段、成桩及钢筋笼制作吊装阶段的质量控制要点进行了分析,指出为
目的 观察电针对大鼠学习记忆障碍和海马磷酸化环磷酸腺苷反应元件结合蛋白(pCREB)表达的影响,探讨电针提高学习记忆能力的机理。 方法 SD大鼠随机分为假手术对照组(10只)