MapReduce中基于抽样技术的倾斜问题研究

被引量 : 18次 | 上传用户:Tianzhh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,信息正在呈爆炸式增长,每天都会产生海量的数据,存储和分析海量数据是目前的一个巨大挑战。近年来,云计算这一新计算模型自从诞生以来就备受关注,各大IT巨头们纷纷将云计算作为首要发展战略,提出了自己的云计算平台和云计算服务,并且已经有了显著的成果。MapReduce作为一种大规模数据的并行处理模型在云计算环境下受到广泛的应用,它以其简单易用,高可扩展性和容错性等特点被应用于很多领域。然而,它也存在问题,它不能有效地处理倾斜的数据。当MapReduce处理的数据分布不均匀时,会造成有些任务比其他任务运行较慢的情况,而整个作业的执行时间是由最慢的那个任务决定的,因此增加了整个作业的完成时间,使系统性能下降。本文对MapReduce中的倾斜问题进行了研究,提出了一种处理方法。本文的出发点是考虑当倾斜的数据存在时,如何高效地将MapReduce中Map阶段产生的中间结果划分给Reduce,使所有Reduce能够达到负载平衡。主要工作为:(1)统计输入文件中所有key的频次分布,由于统计所有数据的开销较大,所以本文采用抽样技术,估算keys的出现次数。将统计key频次分布这一操作用一个单独MapReduce作业来完成。并且,文中给出抽样的理论分析,证明抽取出的样本能够代替源输入文件进行key的频次估计。(2)根据统计出来的所有key的频次分布结果,提出两种划分方法:Cluster组合和Cluster分割,前者在数据倾斜度不大的时候较有效,后者在数据倾斜度较大的时候较有效。(3)实验证明使用抽样技术处理小部分数据能够较快地估计出key的频次分布,两种划分方法可以获得较快的执行时间,使Reduce得到很好的负载平衡。
其他文献
“没有阅读就没有语言学习”。语言学习与阅读是相互依存的,如果不通过阅读,就不可能在语言的听、说、写方面有任何发展。对于当今大学生来说,阅读也尤为重要,然而,经过多年的英
蒽醌染料作为第二大类染料,具有色泽鲜艳、稳定、耐晒、牢度好等特点,在现代印染工业中应用越来越广泛,此类染料具有结构复杂、难降解等特点,传统的处理方法对蒽醌染料废水降解效
目前,农产品市场上,客户的需求愈发多样化、个性化,对农产品物流配送的要求,越来越高,主要体现在物流配送的费用、时间、服务质量等方面。为应对愈发多样的客户需求,相关的组
<正>营销管理是供电企业的销售环节,是供电企业经营成果的综合体现,它包括电力市场、业扩报装、电价电费、抄核收、电能计量、用电检查与营销稽查、供用电合同、电力需求侧、
土地储备制度是一种以土地及地上权利为核心的新型城市土地管理制度,其建立初衷是为了规范土地市场,提高土地利用率,保护土地权利。但是在实践中,土地储备制度却遭到社会各界
近几年,随着机动车数量的日益增多,驾驶员数量的飞速增长,道路交通事故的发生频率逐年上升。研究表明,绝大多数的交通事故是由驾驶员注意力不集中引起的,其中一部分可以通过
生命历程研究通过考察重大社会事件对个体生命历程的影响,已成为社会学研究的一种重要的理论范式。文章对生命历程社会化研究进行回溯和展望,认为其大致经历了三个不同的时期
介绍高压限流熔断器的分类、特点及在变压器保护中的应用,阐述在选择负荷开关-熔断器组合电器时如何进行计算和校验,同时介绍工程应用中应注意的事项。
近年来,随着中国经济的飞速发展,汉语在世界语言之林中的地位越来越重要,学习汉语逐渐成为大量外国人来华的原因。与此对应,对外汉语教学也吸引了国内外不少二语习得研究者的