Hadoop分布式文件系统副本策略的优化研究

来源 :华侨大学 | 被引量 : 0次 | 上传用户:qunimad41197579
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
虽然HDFS的默认副本策略能为数据存储及MapReduce的计算功能提供支撑,并且具有安全性和节点选择简单等优点,但 Hadoop框架并没有重视现实集群中几个重要特征:集群节点的异构性、应用环境的多样化、数据文件访问规律等特征。因此,从分布式存储系统角度上看,HDFS采用默认副本策略不能为存储系统提供优化的I/O性能,从 HDFS所支持的计算应用 MapReduce所需数据的角度看,HDFS采用默认副本策略将引起数据的不合理分布情况,不能充分利用“数据本地性”(data locality),并最终导致集群计算性能的下降。因此,本文提出了一种优化的HDFS副本放置策略。该策略的不同之处在于以应用为导向将数据划分为计算型数据和存储型数据两类,并分别为不同数据类型提供不同的副本放置策略。针对计算型数据使用 MapReduce模块为主的特点,优化的数据副本放置策略在为数据副本选择存储节点时,以节点数据访问负载与节点性能相适应为原则,旨在增加数据计算的“本地化”,即计算节点从本地获得所需计算数据,减少网络传输,提高 MapReduce的计算效率。针对存储型数据使用HDFS模块为主的特点,响应用户读写访问是其主要存储目的,优化的数据副本放置策略以负载均衡为目标,选择综合负载较小的节点作为数据副本的存储节点,综合负载考虑节点的硬件资源(如 CPU、内存)占用率,以及工作连接数(如数据节点上写入、读取、复制副本等操作)。  由于 Hadoop中的数据副本是以数据管道的方式写入,为了避免第一个存储节点写入失败而导致数据副本在其余两个节点均存储失败的情况,优化的副本放置策略在为数据副本选择三个最优的存储节点之后,还进一步对存储节点的写入次序进行优化,提出基于数据节点可靠性的写入次序优化方案,以提高第一个数据副本写入成功的概率,进而最大化三副本写入的成功率。  搭建基于 Hadoop的真实集群环境对本文提出的优化副本放置策略进行四组验证实验,结果表明与 HDFS默认副本策略相比,优化的计算型数据副本放置策略能够有效地提高 MapReduce工作时的Map任务本地化比例,进而缩短 MapReduce程序的完成时间,并在集群节点出现变动时具有更好的稳定性和恢复能力。优化的存储型数据副本放置策略能在一定程度上避开繁忙节点,并能有目的性的引导副本向性能较优节点进行存储,使集群负载更加均衡,最终缩短存储型数据的写入时间,提高存储效率。
其他文献
第三代移动通信技术经过二十多年的发展,理论上已经逐渐成熟。相比于2G,3G以多媒体为主要特征,支持多种速率的语音和数据业务,并以极强的适应性,能在任何时间、任何地点向任何人提
监控技术是在很多领域都广泛应用的技术,从最原始的人在现场的监控到网络监控,监控技术在不断的发展。但是当前的监控系统为二维控制界面或者采用视频监控技术,二维的用户界
语音信号处理的研究有着较长的历史,随着计算机技术的飞速发展,又有了越来越广泛和新颖的应用前景,声音的转换就是其中一个重要的应用。  声音转换(VoiceConversion)是一种通过
在信息安全越来越受到重视的今天,生物特征识别技术作为新一代的身份认证技术得到了大家的重视,并取得了很大的发展,有些方法已经应用于实践(比如指纹、虹膜)。  但是这些成熟的
元搜索引擎是基于搜索引擎基础之上的搜索引擎,它可以同时检索多个成员搜索引擎,对成员引擎返回的结果信息进行融合、再加工后二次陈列给用户。元搜索引擎是当今学术界研究的热
如今,社会的发展不仅创造了各种物质财富,同时也产生了海量的数据财富。如何利用这些数据提高人们的生活品质,便要求我们能够利用这些海量数据进行有效地分类,精确地分析,再
在生物学、考古研究、事故分析、医学手术、自动装配等工作中经常需要把大量的物体碎片拼接成一个或多个完整物体。在很多情况下,拼接之前对物体的形状和个数都无法预测,甚至有
建筑物虚拟漫游技术在建筑设计、室内建筑装潢、房地产开发、游戏设计等方面具有非常广阔的应用前景。它的沉浸感、交互性与实时性的综合效果是传统的平面效果图与动画播放所
现代社会每日每时都有很多的文章出现在报刊书籍、广播电视等等各种信息载体上。而目前的各种文档处理系统主要的也是最适合的服务对象仅仅是文章基本定稿之后的文本处理工作
遗传算法是模拟生物界的进化过程而产生的一种现代优化算法,作为一种有效的随机搜索方法,在优化方法中具有独特的优越性,有着非常重要的理论意义和广泛的应用领域。传统优化方法