面向HDFS的批量文件存储性能的研究与优化

来源 :南京师范大学 | 被引量 : 9次 | 上传用户:znzlwzkp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着经济、社会和科技的发展,个人电脑、智能手机等设备大规模普及,互联网应用越来越广泛和深入,人们进入了大数据的时代。云计算、大数据、云存储共同组成了学术界和商业界研究的前沿课题。Hadoop是目前主流的开源大数据平台,已经成为处理大数据问题事实上的标准,它涵盖一个能够实现云计算、云存储功能的生态系统;其中HDFS作为Hadoop最底层的基础设施,为其提供了高可靠性、高可扩展性的数据存储管理服务,HDFS的工作效率直接决定了Hadoop其他上层工具的性能,也极大地影响了基于HDFS的应用系统的工作效率。HDFS尽管具有很多优点,但是依旧处于不断发展成熟的过程中,特别是当处理大规模数据集时会出现很多问题,具体表现在NameNode节点单点失效、NameNode节点内存瓶颈和负载过大、大量文件访问时DataNode节点磁盘I/O寻址频繁、HDFS集群后台管理工作负载过大等等,这些都极大地制约了HDFS作为一个分布式文件存储系统的应用。为此,本文在对]HDFS进行详细介绍和相关性能因素分析的基础上,从访问性能和系统架构两方面对HDFS进行了优化,进一步提高HDFS的工作效率。本文的主要工作及创新点如下:1,在研读HDFS系统源代码的基础上,介绍了HDFS典型操作流程和后台管理工作,剖析了HDFS中元数据架构体系和通信机制,讨论了HDFS系统在批量文件处理时面临的一些问题和缺陷。2,针对批量文件存储时存在的问题,重构了批量文件存储的机制和读写流程。在写入批量用户文件时,Client客户端将批量文件合并成一个组文件,并且创建用户文件、数据片段、组文件、数据块之间的映射元数据,然后将组文件和相关元数据都存储到HDFS中;在读取批量用户文件时,Client客户端首先获取用户文件的元数据,其次按照存储位置对数据片段进行分类,然后按类向DataNode发出数据读取请求,获得所有数据片断,最后将数据片段组装成用户所求的文件。3,在批量文件存储优化的基础上,提出了将NameNode节点中容易分离的元数据迁移存储到Redis服务器节点的方法,实现“元数据分布,访问分布”,以此来进一步降低NameNode节点的内存消耗和访问负载。4,对于以上的优化方案,在HDFS开源系统上做了编程实现,并进行了实验测试,实验结果验证了优化策略的有效性。
其他文献
随着现代科技和计算机技术的不断发展,人们在与机器的信息交流中,需要一种更加方便、自然的交互方式,而语言是人类最重要且最有效的信息源,实现人机之间的语音交互,让机器听懂人的
在嵌入式操作系统领域,微软公司的Windows CE.Net占绝对的统治地位。Windows CE.Net的汉文版已经在国内广泛应用。随着嵌入式智能设备的日益普及,实现Windows CE.Net操作系统
随着信息处理和计算机技术的发展,声纹识别技术在司法侦察、电子商务、军事通信等许多领域有着极其广泛的应用前景,涉及到语言学、语音信号处理、模式识别与机器学习等知识领
随着Internet规模的迅速扩大和重要性的日益显著,越来越多的问题迫使人们开始关注网络带宽测量,带宽测量一直是重要的研究方向,它对于人们了解网络行为、提高网络性能、改善
伴随着网络技术和多媒体技术的飞速发展,多媒体数据逐渐成为人们获取信息的重要来源,人们可以轻松地从网络上获取各种各样的多媒体信息。与此同时大量诸如非法复制、伪造、篡改
软件的可靠性差和开发效率低一直是困扰软件产业界的两大难题,高效率地开发正确、可靠的软件已成为软件产业的迫切要求。尤其在现在各种大型数据库处理系统,商业网站特别是一
随着科技文献的电子化,科研人员对文档图像的自动识别与理解的要求也越来越高。随着OCR技术的发展,基本实现了对文档图像中文字的识别理解。然而针对文档图像中数学公式的自动
随着计算机技术与internet互联网的发展,人们的信息交流带来了巨大的变化。各种现代化的技术手段和大量丰富的电子信息资源,提供和服务于人类社会。其中现代化的技术之一,计算机
椭圆曲线密码系统近年来已被广泛制定于各种国际标准,椭圆曲线密码技术可应用于加解密、数字签名、密钥交换、大数分解和质数判断等。在相同的安全强度下,ECC的密钥长度远比其
这几年,超声影像在前列腺外科临床中运用得越来越广泛。从超声图像中分割出前列腺的边界在测量前列腺体积,估测肿瘤边缘以及实时目标图像导引的活组织穿刺中有重要的临床意义