基于MapReduce模型的并行计算平台的设计与实现

来源 :浙江大学 | 被引量 : 0次 | 上传用户:adsghah
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅猛发展,每天由网络产生的数据量越来越庞大。互联网企业面对这些浩繁的数据,常常陷入“数据丰富,信息贫乏”的尴尬境地。设计一个通用可扩展的平台,来有效地处理海量数据,不断地从中挖掘出对运营商有价值的信息,成为互联网企业发展的必然选择。MapReduce是由Google公司首先提出的,一种能在大型计算机集群上并发地处理海量数据的框架模型。使用者通过指定一个map函数将输入数据转化成为一系列中间键-值对,然后由一个自定义的reduce函数将具有相同键的值聚集起来,将结果输出。很多现实世界对海量数据的处理,都可以用这种模型来表示。本文在分析MapReduce模型的基础上,结合自身的特点,提出了一种并发处理海量数据的更通用、更可扩展的平台。首先,我们提出了海量数据并发处理平台的体系结构。该结构为客户端-任务调度与执行层-数据存储层三层架构。在客户端,通过可配置的XML文档提交用户任务。在进行任务调度与执行层设计时,我们首先提出了几点关键的策略,如通用平台策略、负载均衡策略、中间结果处理策略和容错策略。接着,我们提出了主控节点-分派节点.服务节点的三点式架构。其中,主控节点负责收集与处理其他节点的各种信息;分派节点负责解析、分派任务,获取任务执行结果;服务节点负责任务的具体执行。三种节点互相配合,共同完成数据的并发处理。接着,我们设计了存储海量数据的分布式文件系统。分布式文件系统具有优异的性能和吞吐率,较高的稳定性和良好的可扩展性。最后,我们在已经搭建好的平台上,进行了若干测试系统性能的实验。我们通过单机与并发执行用户任务的对比实验,说明了并行计算平台的高效。我们通过执行不同类型的任务,说明了如何在集群规模一定的情况下,实现性能调优。
其他文献
随着全球一体化进程的加快和国际经济活动的日趋频繁以及供应链管理思想的兴起,现代港口特别是大型枢纽港的地位越来越突出,港口码头的运作和管理逐渐与整个交通运输和仓储配
大学学习生活与高中有很大的不同,如何顺利完成从高中到大学的过渡,新生入学教育至关重要。文章基于大学学习特点,针对大学学习与高中学习的不同,以及因此导致的近年来大学新
时差法超声波流量计通过检测换能器发射和接收的超声波信号的传播时间信号,实现流量的计量.超声波换能器的谐振频率及超声波信号传播过程中相位和幅值的变化等因素,会影响对
加入WTO对我国电信业的要求主要体现在两个方面:一是对开放电信市场的要求。我国就此做出的承诺是我国电信市场将逐步开放;二是对电信监管框架的要求。加入WTO意味着成员国接
帕斯捷尔纳克(Boris Leonidovich Pasternak,1890-1960)的《日瓦戈医生》(Doctor Zhivago)是一部在二十世纪俄罗斯文学中占有重要地位、产生了很大反响的作品。小说聚焦于日
随着科技的发展,结构振动控制在工程中变得越来越重要。有限元建模使振动控制系统的分析和设计得到简化,但对于一个复杂结构,在建模的过程中,因为进行模型简化处理,得到的近
<正>2013年3月初,江西荣硕置业公司在南昌市湾里区开发建设凯旋湾小区(原湾里区防爆电机厂内),在施工过程中发现两座古墓葬,工地负责人随即上报有关文物部门。接到文物部门通
针对以往仅用人脸特征或头发特征来进行性别分类的片面性,提出了将两类特征相融合的性别分类方法.用对光照、尺度变化具有很强鲁棒性的Gabor小波变换提取人脸内部特征并用PCA
随着现代雷达技术的飞速发展,雷达系统的作用早已经不仅仅局限用于战争,在民用方面,雷达的导航、测绘等功能也发挥非常重要的作用。对雷达系统进行测试,如果仅仅采用外场试飞
河北地区的陶瓷生产由来已久,自北朝起就已经开始生产陶瓷,随着制瓷水平的不断提高,逐渐形成了以生产白瓷为主的特色。随着邢窑白瓷的兴起,河北地区成为了白瓷的生产中心,同