基于Hadoop的海量小文件合并与预取优化方法研究

来源 :华东理工大学 | 被引量 : 0次 | 上传用户：gmwang2009

【摘要】

：

随着互联网的迅速发展以及移动信息时代的到来，信息化正在潜移默化的改变着人们的生活，然而在改变人们生活的同时，各种信息化产物也在不断的产生海量的数据信息文件，因此也给数据

【作者】

：

郑通

【机构】

：

华东理工大学

【出处】

：

华东理工大学

【发表日期】

：

2018年期

【关键词】

：

文件处理数据合并数据存储读取效率分布式平台

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的迅速发展以及移动信息时代的到来，信息化正在潜移默化的改变着人们的生活，然而在改变人们生活的同时，各种信息化产物也在不断的产生海量的数据信息文件，因此也给数据的存储带来了巨大的挑战。Hadoop的出现给数据总量日益增加的海量数据带来了希望，Hadoop因其低成本性、容错性、可靠性以及灵活性等显著优势而迅速在各个领域内被广泛的使用。Hadoop最初是为存储大大文件而设计，文件的读取与存储均通过的流的方式，然而在当今大数据时代，每天产生的数据总量中小文件占据主体部分，其中大多为一些KB级别的图片、短消息、日志文件等等。将Hadoop应用于存储数量巨大的小文件时，将会出现影响Hadoop中文件读取与存储性能等方面的因素。因此研究如何解决当前Hadoop中的HDFS在存储海量小文件时出现的性能低下问题是一个非常热门的研究方向。　　针对如上出现的问题，本文给出了一种基于HBase的海量小文件合并存储的优化方案，本方案主要包括以下三个部分:　　(1)在小文件上传到HDFS之前首先对其执行合并操作，通过只上传一个合并大文件的方式而替代分别上传合并大文件中每个小文件，多个小文件的元数据被一个合并大文件的元数据取代，有效的降低了元数据对NameNode内存的占用。　　(2)为了能够定位并读取到合并大文件中的具体小文件，在文件合并的过程中同时创建小文件与大文件之间的映射关系，在将合并文件上传到HDFS的同时也将索引文件保存到HBase数据表。　　(3)通过分析HDFS的审计日志创建了文件元数据预取机制，降低了HDFS中文件读取过程所用的时间，提高了文件的读取效率。　　本方案通过将上述三个部分紧密结合起来，并且将方案的应用范围扩大到可以适用于同时存储小文件与大文件的HDFS。通过实验证明，本改进方案在降低海量文件元数据对NameNode内存的消耗以及提升HDFS中小文件的读取速度均表现出显著的优势，除此之外，在文件写入性能上本方案较原始HDFS也表现出了较高的性能优势。

其他文献

校园网网络管理的研究与系统实现

随着网络时代的到来,网络规模的不断扩大,网络的结构和功能日益复杂,用户要求越来越高,计算机网络的管理和运行己经成为计算机网络领域的关键技术之一.网络管理技术随着网络

学位

网络管理SNMPJDBCWebJava

IP网络下端对端的QoS测量研究

在传统的IP网络中，采用的是Best-effort服务，每个转发节点对所有的报文同等对待，采用先入先出的策略将报文送到目的地，不能对报文传送的可靠性、传输时延等性能提供任何保证。同

学位

QoS综合业务模型区分业务模型主动测量

基于消息队列的分布式数据库同步系统设计与实现

随着Internet技术的迅速发展和信息共享要求的不断提高,数据库与Web的结合日趋紧密,数据库系统由小型化向大型化发展,由集中式向分布式发展.能处理分散地域的分布式数据库系

学位

分布式数据库数据同步事务控制法复制控制法消息队列法消息队列

基于语义上下文分析的网络图像区域标注算法研究

随着社交网络的兴起以及高清数码相机的普及，图像数据的数量正以指数级的速度增长，如何快速有效地检索和管理这些海量的图像数据成为当今计算机视觉和大数据领域的研究热点。图

学位

图像处理区域标注视觉语义关系图空间位置关系图

终端应用服务协议中终端界面显示技术研究

网络终端技术已经在我国迅速发展起来，智能化应用服务协议是智能化网络终端和服务器上的应用系统之间进行交互的机制，研究开发智能应用服务协议具有重要的意义。本文研究了智能

学位

终端应用服务协议图形终端界面屏幕更新策略编码方法

面向对象类簇级测试及其应用

面向对象软件测试是面向对象软件开发方法中不可缺少的一环，是保证软件质量，提高软件可靠性的关键。面向对象的软件测试分为四级：方法级测试、类级测试、类簇级测试和系统级测试

学位

类簇级测试构造算法类间关系类等级测试次序抽象类

NC环境下网络文件系统安全性研究

随着计算机和微电子技术的迅速发展，软件和芯片技术已成为IT的核心技术，这些核心技术在很大程度上决定着一个国家的信息安全和综合国力。网络计算机是一种基于网络计算机环境的

学位

NFSRPC密码学访问控制用户认证

J2EE群集负载均衡的研究与实现

J2EE规范定义了一套标准来简化N层企业级应用的开发;J2EE服务器提供了交易处理服务、数据存取服务、Java消息服务(JMS)、安全性服务等执行环境和系统服务.J2EE的最大优点是,

学位

J2EE群集负载均衡失效恢复

基于领域知识和概念格模型的知识发现研究

数据库中的知识发现(Knowledge Di scovery in Databases，简称KDD)是数据库和人工智能领域研究的热点课题，其目的是在数据库中提取隐含的，先前未知的，潜在有用的知识。数据挖掘领

学位

数据库知识发现数据挖掘领域知识概念格

专家系统在产品可制造性分析中的应用研究

近年来，专家系统技术已广泛应用到工业、农业、军事、医学以及国民经济和社会生活的各个方面。将专家系统的研究应用于产品的可制造性分析中，利用它指导产品设计，对于提高产品质

学位

专家系统知识表示知识库推理机可制造性分析

基于Hadoop的海量小文件合并与预取优化方法研究

与本文相关的学术论文