云计算中基于MapReduce集群模型的调度优化与研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:wosee_2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据爆炸时代的到来,如何高效地对TB级甚至是PB的大规模数据进行处理是业界迫切急需解决的问题。在应用需求和技术推动下,云计算作为一种新的计算模式被提出来了,并逐步成为了IT界的主旋律。MapReduce分布式计算框架作为云计算中处理大规模数据的利器而被各大企业广泛应用。然而在实际的商业运用中, MapReduce仍然还有很多需要完善的地方,尤其是在调度机制如任务的分配不均衡,失败任务的二次调度等方面,同时原有的调度处理方式也不能很好的适应异构环境。本文将MapReduce在异构环境下的调度机制作为主要的研究方向。本文针对异构环境的特点,重点总结和分析了MapReduce框架存在的调度性能问题和目前主流调度算法存在的不足,特别是在本地执行、数据不均衡等方面。针对上述问题本文提出了一种在异构环境下基于蚁群算法的多任务集群调度算法MSBACO,该算法能够评估集群中节点的处理能力;同时提出一种新的目标转移函数,将任务快速的按照本地执行原则分配到各个节点上执行,从而缩短了运行时间,提高了集群性能。本文在MSBACO算法基础之上提出了预失败任务判定算法DAPT,该算法在任务执行过程中通过对预失败任务进行感知预判,从而将即将失败的任务快速转移给其他节点执行,减轻了主节点的负载和网络开销。基于上述两种算法,本文提出了异构环境下集群调度模型改进方案HNE-IMCSS。最后,通过程序编写和集群平台搭建,将作业执行时间、负载度作为评估指标与主流算法进行对比,验证了改进算法和调度模型在异构环境中的有效性和稳定性。
其他文献
近年来,随着互联网技术的快熟发展,涌现出了一大批在线社交网络,如:国外的Facebook、Twitter、YouTube,国内的人人网、新浪微博等。微博作为一种新兴的在线社交网络,是现实社会的人
随着互联网技术的高速发展,网络上的信息出现了爆炸性的增长。这种增长使得人们可以有机会从更多信息源了解和获知他人的信息、想法、态度和意见。而这些主观性的评论,无法通过
文本聚类是数据挖掘领域的一个重要分支。随着互联网的飞速发展,文本形式的信息不断增多。文本聚类技术已成为对文本信息进行有效地组织、摘要和导航的重要手段,被越来越多的
目前,我国大部分煤矿开采还依靠人工操作,人工矿下开采具有危险性,人为失误和矿下环境异常都会引起矿井重大事故。本文将热点技术RFID技术应用到传统的矿井安全管理上,实现矿
随着互联网的发展,信息量急剧增长,如何高效处理海量数据成为一个非常严峻的问题。传统方式下处理大数据费用昂贵,而在云计算变革中诞生的Hadoop平台能够轻松应对庞大数据量,
功耗评估是功耗优化的基础。近年来,功耗已经成为处理器设计的重要限制因素,更凸显了功耗评估在处理器设计中的作用。单核处理器时代已经过去,片上多核处理器不可阻挡地成为当今
随着网络规模的日益庞大和复杂,网络带宽急剧增加,基于网络的互联网服务呈现多样化的发展,这使得互联网的运行机制和行为特征错综复杂,因此,加强网络管理,对网络QoS进行实时的控制
随着互联网的迅速发展,近几年来社交网络服务越来越流行,成为了很多人生活中的重要组成部分。社交网络的流行在带给人们便利的同时,也给人们带来了信息过载的困扰,推荐系统是解决
云制造是一种网络化制造新模式,它旨在实现基于知识的制造资源共享与按需使用,从而提高资源利用率和企业核心竞争力。服务组合与优选是实现制造资源优化配置的核心技术之一,鉴于
基因芯片技术是研究基因表达谱数据的一种有效工具,通过分析基因表达谱数据中的数千个基因数据,在医学等领域得到了广泛的应用。基因表达谱数据急速增长,表现出规模庞大、内容复