云计算中MapReduce框架的研究与改进

来源 :中南大学 | 被引量 : 0次 | 上传用户:s5871212
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,信息量急剧增长,如何高效处理海量数据成为一个非常严峻的问题。传统方式下处理大数据费用昂贵,而在云计算变革中诞生的Hadoop平台能够轻松应对庞大数据量,包含结构化或非结构化数据,并可大规模并行处理,为海量数据处理带来一种更为方便、廉价、快捷和安全的方式。因此,研究如何提高Hadoop框架的稳定性,优化系统性能具有重要意义。本文从Hadoop的框架结构入手,针对节点的负载均衡和任务调度优化等问题做了以下研究。首先,分析Map任务中间结果的映射过程,指出数据倾斜问题,提出两种均衡数据映射的方法:公平负载在线模型和公平负载离线模型。其中,在线模型需要预先分析Key的分布,而离线模型需要衡量任务槽的性能,为此提出一种衡量节点性能方法。其次,分析数据本地性问题,指出数据本地性的重要性以及分布式异构环境的影响。对任务调度进行研究,分析三种现有调度算法,提出一种基于节点延迟匹配调度的算法,来提高本地任务的匹配度。最后,构建Hadoop分布式环境,并在集群中进行实验,比较加入负载均衡和节点延迟调度后与原始调度算法的性能差异。通过验证,新的改进对大部分类型作业具有更好的数据本地性和响应时间。本文通过研究Hadoop平台的中间数据映射和任务调度,分析了框架的缺陷和性能瓶颈,提出改进算法并进行有效尝试,为Hadoop平台性能的优化和提升提供了新的思路与方法。
其他文献
伴随着移动互联网的发展,产生了海量的图像和视频数据,对这些图像和视频数据进行处理与编辑得到了大家的高度重视。最近提出的基于双向相似函数的方法使用双向能量函数来衡量
随着数据库技术、数据仓库技术的迅速发展,存储的数据急剧增长,传统的数据分析和查询方法已经不能满足人们对隐含在数据中的知识的渴求。知识发现是研究如何快速、准确地从杂
随着数据密集型计算需求的快速增长,采用MapReduce框架的云数据中心日益流行。其中,能耗问题已成为基于MapReduce框架的异构云数据中心当今急需解决的问题。为了能够提供超大
形式化方法(Formal Method)是基于严格数学基础的,可以得到非歧义的形式化描述规约,在软件工程领域中引入严格的数学机制,对于提高软件可靠性具有积极作用。形式化技术的使用
随着互联网Web2.0时代的来临,Web应用呈现出爆炸性的发展,能否灵活应变需求、快速开发、迅速接收用户反馈并更快地做出调整("Agile"即敏捷)成为了Web开发的关键。同时,在注重
二维-三维图像配准方法作为医学图像配准领域研究的一个分支,是当前研究的热点之一。其最典型的应用实例是介入外科手术导航中。由于二维医学图像缺乏三维空间信息无法为临床
近年来,随着互联网技术的快熟发展,涌现出了一大批在线社交网络,如:国外的Facebook、Twitter、YouTube,国内的人人网、新浪微博等。微博作为一种新兴的在线社交网络,是现实社会的人
随着互联网技术的高速发展,网络上的信息出现了爆炸性的增长。这种增长使得人们可以有机会从更多信息源了解和获知他人的信息、想法、态度和意见。而这些主观性的评论,无法通过
文本聚类是数据挖掘领域的一个重要分支。随着互联网的飞速发展,文本形式的信息不断增多。文本聚类技术已成为对文本信息进行有效地组织、摘要和导航的重要手段,被越来越多的
目前,我国大部分煤矿开采还依靠人工操作,人工矿下开采具有危险性,人为失误和矿下环境异常都会引起矿井重大事故。本文将热点技术RFID技术应用到传统的矿井安全管理上,实现矿