论文部分内容阅读
随着互联网、移动互联网的快速发展,互联网从开始的内容的传递者到内容的第一生产地,从社会精英的通信、信息管理和计算工具到社会大众的身边事分享、娱乐及日常购物工具,互联网已经深入到我们生活的方方面面,原因和结果都是互联网要记录和必须能记录我们生活的方方面面,这就是大数据量的产生。
目前针对大数据量,各大IT巨头,如Google、Amazon等都有自己的存储和处理平台,而近年来最被看好的则是开源的Hadoop平台。Hadoop平台也是一个年轻的平台,从产生到现在,随着更多的进入实际的使用,一直在按着生产的需要进行着更新和改进。其中的任务调度部分是一个比较重要的部分,不少公司都在按自己的需求做改进。因此对现存的任务调度器进行调研、总结改进,对于提高Hadoop的计算性能和系统吞吐率是非常有意义的。
本文做了以下工作:
深入理解了Hadoop的分布式文件系统和MapReduce编程模型;在Hadoop的任务调度器方面,深入理解了先来先服务、公平资源调度、计算能力调度三种调度器的功能设计、实现细节等,在此基础上,提出了一种能通过节点监控进行资源感知的、对时效性要求高的作业进行更多的照顾的任务调度器,对此调度器的思想、流程、设计、实现等做了详细的叙述;对算法进行了试验验证,结果也表明算法成功的得出了预期的目标,解决了一些不足。