若干MapReduce排序问题的算法研究

来源 :浙江理工大学 | 被引量 : 0次 | 上传用户:zhdj600
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
MapReduce是Google提出的一种编程模型,一个处理和生成大数据集的相关实现。本文主要研究了MapReduce平行机排序问题,对极小化最大完工时间(makespan),论文研究了m台同类机离线和两台机在线排序模型。对极大化最小完工时间,文中研究了同型机离线排序模型。全文共分五章。  第一章简要地介绍了排序问题的基本知识以及MapReduce的相关知识。  第二章主要研究m台同类机离线MapReduce排序问题,在这里map任务可以平行加工然而reduce任务不能平行加工。目标是极小化最大完工时间,分别考虑reduce任务可中断和reduce任务不可中断两种情况。对可中断的reduce任务,我们设计了一个近似比为2-s1/∑mj=1sj的算法,其中s1≥s2≥…≥sm,si是机器σi的加工速度;对不可中断的reduce任务,给出了一个近似比为2+√3/3的算法。  第三章主要研究两台同类机在线MapReduce排序问题,目标是极小化最大完工时间。首先对reduce任务可中断和reduce任务不可中断两种情况,分别给出了问题的下界。对可中断的reduce任务,给出了竞争比为√s2+2s+5+1-s/2的最优算法,其中s是两台机器的速度之比;对不中断的reduce任务,我们证明类似LS算法是最优的且它的竞争比为2s+1/s+1(s<1+√5/2)和s+1/s(s≥1+√5/2)。  第四章主要研究离线MapReduce同型机排序问题,目标是极大化最小完工时间。对可中断的reduce任务,给出了3台机的最优算法;对不可中断的reduce任务,考虑2台机、3台机、任意m台机的情况,分别给出了最坏情况界为4/3、3/2、m的近似算法且都是紧的。最后,我们对相关问题的后续研究作了讨论。  第五章总结全文并提出相关问题进一步的研究方向。
其他文献
本文研究了一类在正规标架下支撑函数满足:h(0)+h(-0)为常数的凸曲线,我们称之为X型曲线.在定理4.1中,我们证明了X型曲线周长为常数;在定理4.2中,我们证明了X型曲线中由Reuleaux三
基于人工免疫网络的数据聚类技术借鉴生物免疫系统的免疫识别、免疫记忆、免疫调节等机理,能够对大规模的数据自学习分类。将该技术对网络数据做聚类分析,定义正常和异常数据
大型鞍点类型的线性系统出现在计算流体力学、约束最优化等计算科学与工程学领域,比如在不可压缩流体力学中,著名的Navier-Stokes方程是含约束条件的偏微分方程,这些约束条件代
加倍测度是度量空间上一类比较均匀的测度,它有一些比较好的性质.关于加倍测度的存在这个问题,很多学者给出了一些比较好的结果.然而,在某些比较好的集合上也可能不存在加倍测度
P-调和方程是一类重要的拟线性椭圆方程,它在拟共形分析和非线性弹性理论等领域有着重要的应用。本文研究加权P-调和方程,利用具有权函数的Hddge分解和Young不等式,证明了Dirich
本文主要在一类特殊的Bergman-Hartogs型域上构造几类Roper-Suffridge算子,并研宄这些算子的几何性质.  第一章主要介绍多复变函数论的发展背景,本文所用到的记号和定义以及
20世纪60年代,Richard Thompson发现了群F、T和V,其中F
对于学生的终身发展和提高来说,阅读具有极其重要的作用。初中生正处于身体和心理发育的黄金时期,在这个期间,语文阅读教学要为学生提供坚实的发展基础,帮助学生获得全面发展的能
在科学试验中,常遇到因子个数多而所允许的试验次数受预算或时间限制而较少的情况,这时就需要用到超饱和设计。以前的文章大多研究在E(s2)和E(fNOD)等准则下最优超饱和设计的
学位
阅读是英语学习中至关重要的一环,是英语综合运用能力的体现。它不仅是考察学生的英语语言能力,词汇的积累更是对学生的理解能力以及课外知识的综合考察。阅读能力的提高是对学