MapReduce下容错机制的研究与优化

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:horns01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,云计算集群系统越来越大,处理数据的规模越来越大,这样就需要一个高效的分布式处理系统进行数据挖掘、计算等任务。MapReduce是Hadoop下的计算框架,也是云计算Hadoop的核心模块。MapReduce的容错性关乎Hadoop集群的性能。MapReduce有很好的容错机制和表现不错的容错性能,但是随着使用对象和场景的不一样,在专有任务的情况下反而会降低系统性能。因此本文利用原有的MapReduce下的容错机制进行改善和优化,使它更加适用于各种任务的系统中,并在节点失效时系统的容错能力更强。本文主要从节点的失效到数据处理过程对MapReduce下容错性能进行改善和优化,主要研究成果如下:在任务运行前,通过预取数据执行估算出任务的执行时间,根据任务执行时间设定超时检测时间(TASKTRACKER_EXPIRY_INT-ERVAL),当节点在超时检测时间未收到节点发送回来的心跳程序时判断该节点失效;在任务运行过程中,系统会对每个节点设定一个信誉值,根据节点的数据获取错误对节点的信誉值进行衰减和通过心跳汇报对的信誉值进行恢复,当节点的信誉值低于最低阈值就判断该节点失效。在运行过程中,产生的中间值存储在本地,当节点失效就会丢失,本文采用异步复制,不同机器存储的方式存储,使得中间值在节点失效时同样能取得。通过在任务运行前对失效时间进行设定,在运行中对节点失效进行评估和对中间值进行备份存储的方法增强了系统的容错能力。
其他文献
我国企业信息化工作取得长足发展的同时,也出现了一些有待于解决的问题:企业内部各个应用系统由于历史遗留、开发系统相异等原因而无法无碍地相互集成,造成了信息交流不及时
信息融合是数据加工、信息处理的升华,其基本思想是综合利用系统各个方面的数据信息,最大限度地抽取有关对象或环境的有效信息,以达到更准确、更全面地认识观测对象或环境的目的
学位
由于计算机网络规模的不断扩大,结构的日益复杂以及功能的愈来愈强,对计算机网络的管理就显得越来越重要了,而一个完善的网络管理系统也就成为了计算机网络能够可靠而稳定运
Internet技术已经渗透到社会的各个领域,为了防范恶意的网络攻击行为,越来越多的联网主机采用个人防火墙,这使得VoIP、P2P和网络视频会议等通信受到一些限制,迫切需要一种特殊的
本文设计的多路H.264视频编解码器就是为了能够实现一种视频图像质量好和传输可靠性高的多路视频通信。本文主要工作如下: 一,深入学习和研究H.264标准的编解码体系架构和视
伴随着互联网的高速发展,对等计算(简称P2P)迅速成为当前互联网最热门的应用技术之一。P2P网络是一种分布式网络,网络中的参与者既是资源提供者,又是资源获取者。P2P网络不但方
SIP(Session Initiation Protocol会话初始化协议)是用来生成、修改、终结一个或多个参与者之间的会话的应用层协议。SIP可应用于IP电话、IMP(Instant message&Presence即时
嵌入式移动GIS开发运行平台结合了移动GIS系统和企业信息系统二者的优势,可以支持基于移动设备的精确定位,基础地理数据的实时检索、查询和发布,基于位置信息的企业信息服务,从而
学位
随着互联网技术的飞速发展,网络正在成为人们进行信息交流和信息处理的有效平台,各种数字化的信息每天以极高的速度增长,网络上积累了海量的数据。面对如此巨大的信息量,如何发现