基于MapFile的HDFS小文件存取优化研究

来源 :南昌大学 | 被引量 : 0次 | 上传用户：seesmile

【摘要】

：

随着社交网络的兴起和物联网的快速发展,各种形式的数据正发生爆炸式的增长和堆积。如今Apache Hadoop已成为大数据行业发展背后的驱动力,而且成为了许多企业的首选。Hadoop

【作者】

：

洪新利

【机构】

：

南昌大学

【出处】

：

南昌大学

【发表日期】

：

2017年期

【关键词】

：

HDFS MapFile 小文件存取缓存

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着社交网络的兴起和物联网的快速发展,各种形式的数据正发生爆炸式的增长和堆积。如今Apache Hadoop已成为大数据行业发展背后的驱动力,而且成为了许多企业的首选。Hadoop是一种新型的计算架构,可以并行的对数据信息进行分布式的管理。其提供的是便宜的处理大数据的能力,高容错性和易扩展性也是其越来越受欢迎的原因。Hadoop分布式文件系统是Hadoop的核心之一。HDFS采用master/slaves式结构,系统中有且只有一个主节点(NameNode),可以有多个从节点(DataNode),在存取大文件时,有非常可观的性能。然而这样的结构同时带来了弊端,在存取海量小文件时,会产生大量的元数据,并且系统需要维护这些数据信息的心跳机制,这会给主节点带来了巨大的压力,使得系统存取效率低下,成为Hadoop的性能瓶颈之一。现代及将来的云计算中,小文件是主要的数据信息,如何有效的存取海量小文件也成为了许多互联网公司争相研究的问题。由于分布式文件系统在存取海量小文件时表现出的乏力现象,Hadoop自身提供了归档工具Hadoop Archiver(HAR)和Sequence File文件合并方案等,这些方案可以非常有效的降低主节点元数据的数量,从而一定程度上提高系统在小文件存取时的效率。但是由于HDFS存储元数据和索引的随机性,使得在读取文件时,消耗的资源很可能会增加,并且在访问系统中不存在的文件时,需要遍历整个fsimage文件,极大的浪费NameNode有限的资源。鉴于此,在吸取其他研究者优秀策略的基础上,本文提出一种基于MapFile的小文件存取优化方案。方案的主要思想是,在存储小文件时,客户端根据小文件的类型和访问权限,通过同类型和同访问权限对小文件进行分类合并成MapFile,合并后的大文件交给HDFS处理。根据缓存技术对数据命中的影响,引入由Nexist文件缓冲区域、多级缓存组成的缓存模块,文件读取时,有效的提高文件命中效率,避开对NameNode频繁访问,减小NameNode的压力。通过对传统HDFS、基于MapFile的HDFS和本文优化后的HDFS的分析和研究,分别搭建三种系统环境,并对相应NameNode内存消耗和存取效率的进行测试和分析。实验表明,该策略能有效降低存取海量小文件时主节点中内存的消耗,减少了小文件的读取时间,另外在访问系统中不存在文件时,能有效的解决NameNode遍历所有索引的问题,从而整体上优化系统的存取效率。

其他文献

面向高维数据的随机森林算法优化研究

随着物联网、移动互联网、云计算及各种数据自动采集技术的迅猛发展,许多应用领域在迅速积累着大量的数据。当前实际应用产生的数据维度越来越高,如何挖掘和利用这些高维数据

学位

分类算法随机森林技术决策树高维数据

CHAIRS系统运行管理与离线检测的设计与实现

学位

基于视频监控的车辆识别技术的研究

智能交通系统(ITS)是现代交通视频监控领域的热点研究课题之一,代表着未来交通管理的发展趋势,已被公认为解决道路交通拥挤、事故频繁等问题,保障交通的顺畅和安全,最大限度

学位

双目视觉车辆检测车速测定混合高斯深度背景模型

SaaS应用多租户数据库模式映射机制优化技术研究

云计算作为一种新的计算范式在商业上取得了巨大成功,软件即服务(Software as a Service)已经成为云计算对外提供服务的重要形式,而数据存储模式映射机制是实现多租户SaaS应

学位

SaaS应用多租户数据存储模式映射优化技术

基于量子博弈的多机器人追捕合作策略研究

多机器人追捕目标问题作为多机器人系统的一类典型协作问题，它研究的是一群机器人如何通过合作去有效地捕获另一个或多个逃跑的机器人。多机器人追捕目标问题是研究多智能体机

学位

多机器人系统机器人追捕量子博弈最优决策纳什均衡

基于社交网络模型的智能个人知识库构建

近些年来,人工智能技术快速发展,极大地促进了技术创新,以及推动了人类社会的发展。智能助手是随着人工智能的发展而兴起的一种新型的行动代理软件,受到了学术界和工业界广泛

学位

智能助手智能个人知识库社交网络模型问答系统

面向栅格化分布式水文模拟的并行调度方法研究

应对从人口膨胀到环境污染、气候变化以及水资源短缺等实际需求时,水文科学的发展是我国国民经济健康发展的坚实基础和保障。面对解决重大科学水文问题,大规模流域的分布式水

学位

DAG调度并行算法数据密集计算密集多资源匹配

不规则矿体的三维建模与虚拟切割

随着信息技术的快速发展，虚拟制造与三维建模的应用越来越广泛，而虚拟切割等虚拟加工技术是虚拟制造的底层关键技术。三维数据场的三维建模以及三维模型的虚拟切割等虚拟加工技

学位

三维建模数据精简凸壳算法虚拟切割

基于半监督学习的人脸识别研究

人脸识别是一种方便的生物识别技术,一直以来都备受关注。近几年来,由于技术的不断地发展和逐渐成熟,人脸识别已经被广泛地应用于安防、金融、生活等场景,具有巨大的社会价值。另外,随着互联网的快速发展,网上出现了规模巨大的及具潜在价值的数据。这些数据往往没有与任务相关的标签,无法被常用的监督学习算法所利用。因此数据被从网上抓取之后,往往还需要人为打上标签。如果数据规模很大,就要消耗大量成本。半监督学习是一

学位

基于人工免疫原理的图像边缘检测算法研究

当代信息化世界中,人类视觉性地认识世界主要通过图像、图形、视频等形式。图像已经成为飞速发展的社会形态中重要的信息载体。图像的边缘是对图像最基本的描述之一,能够大致

学位

边缘检测阳性选择人工免疫网络非极大值抑制动态检测器

基于MapFile的HDFS小文件存取优化研究

与本文相关的学术论文