Hadoop集群下海量小文件优化处理

来源 :武汉理工大学 | 被引量 : 8次 | 上传用户:changkou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网、物联网的发展,数据量正以指数级增长,传统的技术架构在处理海量数据面前显得越来越乏力。Hadoop作为一种能够高效处理海量数据的技术框架,越来越多的受到业界的关注。Hadoop由底层的分布式文件系统HDFS和分布式计算框架MapReduce组成,采用主从架构的设计,HDFS的单名称节点设计简化了文件系统的管理,却带来了海量小文件处理效率低下的问题。本文考察国内外学术界、工业界对海量小文件处理的研究,通过对Hadoop及其生态系统的技术细节的学习,发现目前的解决方案还没有充分考虑到文件的多样性、重复性等问题,对Hadoop集群的单点问题没有很彻底的解决。因此,本文提出了利用Hadoop生态系统的相关组件,对Hadoop集群进行优化,试图改善海量小文件处理所面临的问题。本文提出了利用MD5算法对文件进行快速判重,过滤内容重复的文件,减少写入文件的个数,降低磁盘消耗;提出了利用MapFile进行文件合并,文件按照大小分别存储,各种类型的小文件建立多级合并队列,当队列达到阈值时合并写入HDFS,在一定程度上降低了文件的个数;提出了利用HBase进行索引信息的持久化操作,利用缓存器进行索引的缓存,并对缓存器和索引器中的数据建立一致性保护,既保证数据读写效率,又能对外提供稳定服务;提出了“标记-删除-压缩”的方法进行文件删除,修改要被删除的小文件索引信息标志位,当删除文件时,对小文件所在的大文件进行压缩处理,一方面提高了删除的速度,另一方面减少了删除小文件带来的空间碎片。本文设计了简易上传下载系统,完成优化前后文件上传、下载模块的设计,并对系统进行读写效率的测试,对优化前后集群主节点内存、网络、磁盘等方面的消耗进行对比分析,结果表明优化方案相比较传统的Hadoop有着比较好的效果。
其他文献
<正>习近平总书记在党的群众路线教育实践活动总结大会上的讲话,不仅是对党的群众路线教育实践活动的全面总结,而且是关于党的群众路线理论的科学论述,是实施党的建设新的伟
Lur’e型控制系统是一类非常典型的非线性控制系统,对它的研究是从飞机自动驾驶仪的稳定性问题出发,将系统的非线性部分孤立出来,使系统具有闭环控制系统的形式。本文所指的具有
<正>歌剧《特洛伊人》是柏辽兹晚年的杰作,创作于1856年8月至1858年4月间。整部歌剧结构庞大,共有五幕,九场,五十二首分曲,演出时
我国加入WTO以后,企业的管理工作逐步与世界接轨,人力资源管理正在由传统的职能层次向战略层次转变,并逐步被企业所认同、接受。但是,人力资源管理在我国起步较晚,特别是我国铁路
建筑能耗是社会三大主能耗之一,随着我国经济的发展,建筑能耗逐年增加。在目前的技术条件下,能源是不可再生的,无论从我国可持续发展的内需,还是从应对全球气候变化的外因来看,节能
<正>卡尔·乌尔里希·施纳贝尔与琼·罗兰的Duo长年的相濡以沫,共同的理想志趣,使卡尔·乌尔里希与妻子海伦成名后一直视钢琴二重奏和四手联弹为他们追求的最主要形式,如今海
<正>眼下又到了进补的时节,然而一些人在进补时,看到家中贮藏已久的一些补药觉得弃之可惜,倘若继续使用却又害怕不安全。为此,下面特介绍一些用药常识,以供人们在使用补药时
期刊
<正>中医里的"火"指的是什么?火焰的特性是:灼热、明亮、升腾、红赤。同样,中医中的火也具有这样的特点。那么,中医里的火指的是什么呢?人体中有阴气和阳气,在正常情况下,阴
云南少数民族题材电影有着得天独厚的优势,其丰富的民族文化资源属世界罕见。绚丽多彩的民族地域风貌,以及大量遗存的少数民族民间文化故事等,无不令人向往。然而,云南少数民族题