基于统计学习的数据密集型MapReduce程序执行时间的预测方法的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:yf15950800613
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
越来越多的互联网公司依赖大规模的数据分析作为其核心服务的一部分,如日志分析、特征提取和数据过滤等任务。通过其Hadoop实现,MapReduce模型已经被证明是处理此类数据的有效模型。进行这种分析时的一个重要挑战是预测单独作业的执行时间。这对于资源的管理以及进度的安排有重要意义。但是MapReduce模型程序为了解决复杂的问题,模型的程序也会变得复杂多样,如何做到在复杂环境下对程序执行时间的预测是这个问题的难点。为此,采取将问题限定在特定条件,并将其拆解的做法。  首先考虑到模型的普遍性,忽略了专家级操作者通过改变参数影响性能的情况。其次,将程序应用类型限制在数据密集型程序,由于数据密集型程序具有CPU计算较少,I/O花费的时间较多,算法时间的复杂度为多项式时间的特性,有较广的实际应用范围。最终将程序应用的场景分为三类:  (1)一类是某一应用程序不做改变,改变的只是数据流的场景,本文使用了KCCA模型进行了预测。该模型可以使用极少的特征就可以较为准确的预测程序执行的时间。但是我们需要从KCCA的推导过程中总结出训练的方法。而且该模型输入的特征与程序类型关联紧密,并不适合做推广,只适合于单一类型的程序预测。  (2)为了应对更为复杂多样的场景,提出了基准预测模型的想法。通过对MapReduce模型执行过程以及中间结果进行分析,根据不同阶段的不同特性提出了使用不同的预测模型进行预测,同时基于集成学习的方法将模型融合,最后验证了该模型对于同一类程序有很好的预测效果。  (3)最后,本文提出了元操作的概念,并以算法归约为理论基础,将元操作归约到复杂的算法,并给出了两种适应不同情况的预测方法。一种是基于经验的预测方法。该方法在小数据集上的效果较好。另一种是基于采样预执行的预测方法,该方法更适合大的数据集。
其他文献
遍布全球的互联网正在无时无刻、无所不在的渗透到人们的工作、学习和生活当中。从企业的信息化、商业的智能化到科教卫生等各个领域都可以找到互联网的影子,“互联网”这个词
机器翻译(machine translation,MT)是自然语言处理(nature language processing,NLP)的一个分枝,它是利用计算机把一种自然语言翻译成另一种自然语言的技术。机器翻译一直被认为
生物系统的复杂性使得基因之间的关系呈现出多样化,其中一种关系为活化关系,即某些基因(调控基因)可能控制或活化别的基因(被调控基因),这样后者的表达将滞后于前者。通过比较基
电子数据采集(EDC)是现代临床研究不可或缺的一种现代化研究手段,无论是在国外还是国内都已经得到了普遍的应用。而对于临床研究来说,准确而迅速地采集并处理数据是至关重要的,
Manet网络也即移动Ad H0c网络(Mobile Ad hoc Network),它是由若干节点所组成的一个无线移动自治系统。在一个无线Manet网络中,节点之间通过多跳的无线链路相互通信,这样所有的
目前,电信业竞争激烈,移动运营商在不断地寻找新的途径去创造新的利润点或者利润增长点。在各种移动增值业务当中,无线定位业务又称为位置业务(LBS),是由移动通信网提供的一种增
2008年北京奥运会后,体育竞技项目越来越受人们欢迎。但如何更好的运用图形图像技术来实现运动员的各种运动信息的展示,也成为一个越来越热门的研究领域。冬季奥运会上的花样滑
信息时代,人们对教育提出了新的要求,Internet远程教学作为一种新的教学模式正备受关注。与传统的教学相比,基于Internet的远程教学不受时空环境的限制。它符合现代人才培养的需
搜索引擎是人们获取海量网络信息的首要工具,是网络研究和应用的关键内容。目前随着tntemet信息的爆炸增长以及信息多元化的发展,主题搜索引擎正成为研究热点与发展趋势。本文
近些年来,有关空间数据的应用与日俱增,这就对空间数据的有效管理提出了迫切要求。空间数据库是管理和处理空间数据的有效途径,它已成为当前数据库领域的研究热点,在国内外应用于