异构环境下MapReduce离线调度算法的研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:qq12433184000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,如何高效地分析处理海量数据成为了计算机学科的一个新的挑战。MapReduce就是在此背景下出现并飞速发展的一种计算模型。在此之前,并非没有并行计算模型,但MapReduce凭借其简便易学,高效稳定的性能赢得了学术界和工业界的广泛认可,在大数据时代逐渐崭露头角。本文研究的,是异构MapReduce环境下,大批量作业的离线调度问题。众所周知,在MapReduce模型应用最广泛的公司中,其很大一部分需求都是针对周期性执行的日常处理任务。如Google要每天对新爬取的页面进行分析,对用户的日志进行统计等。显然,如何调度这些作业,使其在集群中按照合理的顺序执行,对于减少作业的总运行时间,提早释放系统资源有重大意义。本文的研究内容可以简要概括为:在异构环境下,针对一个给定的独立MapReduce作业集合,设计一个调度算法,使得系统的总执行时间最小。根据我们的调研,该问题是NP完全问题,最优解在现有计算能力下不能取得。故本文创新性地将该问题和两阶段流水作业调度问题类比,提出了混合多阶段调度算法。本文将该调度问题分解为两个子问题,以降低问题复杂度。针对提出的排序子问题,本文提出了基于Johnson的优先权设置算法,从而降低了由map和reduce任务依赖引起的执行时间增长。针对另一个分配子问题,我们又将其一分为二。在map阶段,通过使用Min-Min算法平衡map阶段集群中机器的负载。在reduce阶段,我们提出了Dynamic-Min-Min算法,通过在一个到达作业集合上使用分配算法,使得作业能尽量均匀地分配到集群上。最后,为了验证本文算法的性能,我们设计了一款MapReduce环境下的调度模拟器。模拟实验的结果表明本文提出的每个启发式子算法都极大降低了作业的执行时间。而和FIFO调度算法相比,本文的算法能减少51%到77%的执行时间。
其他文献
随着计算机技术和人工智能研究的迅速发展,图像特征信息提取技术的研究在数字图像处理领域显得愈加重要。在图像众多的特征中,代表图像局部结构的特征点起着独特的作用。在图
维基化(Wikification)是将纯文本文档中的短语链接到相应的维基百科文章,以表现短语正确语义的过程。维基化可以被视为更一般的单词语义消歧问题,它在对单一单词消歧的同时,也进行
网络事务监控与分析系统的着眼点是信息流分析与数据留存。本文在论述网络事务监控的意义及原理的基础上,对网络监听技术、TCP/IP协议、HTTP协议、FTP协议等进行了深入地分析,通
数字签名在电子商务中的应用中占有重要地位。作为数字签名的一个分支——代理签名,由于其在电子银行,电子商务、移动代理等实际应用中的重要作用,一提出便受到广泛关注,成为
随着Internet技术快速的发展,Web的应用变得越来越广泛。同时Java技术因为具有跨平台的特性也取得了广阔的发展空间。自从1999年推出以来,SUN公司J2EE平台作为一种Web应用的
现阶段校园信息化建设面临多个问题:现存的信息系统之间交互性较差、数据重复、信息不同步、信息孤岛等。本文分析了其他高校“数字校园”建设方案及企业应用集成的案例,分析了
本论文的目的在于扩展传统的防火墙技术,使之能够防范来自内部的攻击。传统防火墙之所以存在这种缺陷是因为它是对外防护,而对内部网络的主机认为都是可信的,缺乏对内部局域网主
随着计算机网络技术和多媒体技术的飞速发展,多媒体信息给人们的生活创造了极大地便利,但同时也暴露出越来越多的安全隐患问题。信息隐藏技术作为信息安全技术研究领域中的一
学位
近年来,随着计算机技术与网络技术突飞猛进的发展,现代企业遇到了巨大的机遇与挑战。如何提高自身的竞争力?很多企业都认识到企业信息化是企业强大的必由之路,然而我国企业信