异构MapReduce集群的网络与调度优化

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:Tsianyong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
因为MapReduce对于处理大规模数据有着很好的可扩展性,所以MapRe-duce成为了云计算中非常流行的一个编程模型。但是,MapReduce在异构集群上的表现并不好。出现这种情况的原因是Hadoop的MapReduce的负载均衡机制——备份任务会造成过量的网络流量,与Shufe争夺带宽。本课题基于OpenFlow协议提出了一个称为OFScheduler+的动态异构MapReduce集群优化方案,可以减少带宽争夺情况。优化方案主要致力于减少带宽竞争,增加链路负载的平衡性和带宽利用率,同时对于MapReduce任务调度算法的任务分配算法进行了改进,使得任务分配的时代考虑了网络的因素。OFScheduler+包括下面的4个部分:(1)一个可以标记不同流量类型的标记机制,利用对IP头部的ToS的值进行修改的方法标记了不同类型的流量(2)一个针对MapReduce基层网络特征进行特殊优化的动态流调度算法,可以提高集群的网络利用率(3)一个流速控制机制,可以根据集群中当前的网络状态,事实上开启或者关闭MapReduce的负载平衡机制(4) JobTracker通过查询OpenFlow的控制器得到当前网络的状态,并将网络因素融入了MapReduce调度算法的任务分配方案中为了对本课题提出的优化方案的效果进行评估,我们实现了一个MapRe-duce模拟器,以及一个真实的OpenFlow的testbed。模拟结果说明,在一个多路径拓扑的异构集群中,OFScheduler+可以提高链路的带宽利用率,对于大多数MapReduce作业,可以提高26-64%的性能,尤其是对于数据密集型的作业有更好的效果。在testbed上的实验结果说明,OFScheduler+可以部署于真实环境,并取得良好的效果。
其他文献
网络和多媒体技术在教育领域的应用,带来了教育观念、教育模式、教学方法和教学手段等的深刻变革。Internet的分布式资源环境,在知识获取方式、共享能力及协作学习等方面为远
随着信息技术和网络技术的发展、各种应用服务的普及,为了提高用户的使用效率、方便管理员的管理,集成身份认证(Single Sign-On,SSO)和安全有效的授权管理需求越来越强烈。
语义依存是中文语义的深层分析,完善的语义表示体系对语义依存分析有重要作用。但是,目前公开且规范的中文语义依存标注语料还比较少。HIT语义依存是第一个被用来组织公开语义
由于自动导引车的高效性,精确性和灵活性,自动导引车在制造设施、仓库、配送中心和中转码头等地方得到广泛应用。自动导引车对可靠性要求非常高,形式化方法是保证高可靠性的
血管疾病已成为威胁当前发达国家公众健康的头号因素。近年来医学图像中的磁共振成像(MRI)能够有效地呈现出医学数据的几何形态等特征。如果能够采用MRI数据重建出三维脑血管
随着宽带网的发展和用户数量急剧增加,Web服务器成为访问的瓶颈。B/S模式中的Web服务器单点失效可能影响整个网络的可靠性。利用现有的Web缓存服务器和Web缓存服务器机群方案
随着网络的发展,许多应用中的数据不再是数据库中静态的数据,而是以一种流的方式在线到达的动态数据。这样的数据具有数据无界,数据量大,流速快,并且要求实时处理等特性,这种新型的
不断发展的生物实验测定技术产生了越来越多的生物网络数据,比如蛋白质相互作用网络、基因转录调控网络等,这些数据中蕴含了大量的关于各种有机体之间相互影响和相互作用关系的
计算机动画是计算机图形学中一个重要的领域,而用计算机生成三维的卡通动画又是计算机动画中一个举足轻重的研究方向。本文在回顾了烟的动态模拟、烟的动态控制以及烟的非真
网格(Grid)技术是把地理位置上分散资源集成起来的一种基础设施,它为分布式资源与服务的共享和协同工作提供了一个开放的标准平台。随着开放网格服务体系结构OGSA和Web服务资