基于MapReduce模型的分布式计算平台的原理与设计

被引量 : 0次 | 上传用户:ericshen81
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网应用的高速发展与应用为企业带来了非常巨大的发展机遇,各种个性化的应用与服务散发着无限魅力。然而随之而来的是海量数据。如何正确而高效的从海量数量中分析有用信息并做出决策是目前所有新型互联网企业必须面对的一件极具挑战性的工作。传统上,人们往往选择使用分布式计算系统来处理这种复杂而庞大的任务。传统的分布式计算平台往往依赖高端大型服务器,并且需要专业分布式与并行计算的程序员进行长期设计与维护。这往往使得新型互联网企业面临巨大的经济压力。因此,设计一个采用大量廉价机器组成的可扩展的分布式计算平台变得尤其重要。MapReduce是一种并行编程模型,它用于处理大型的数据集的程序设计中。基于这种功能的程序能够在大规模的廉价机器上并发地执行任务。基于MapReduce编程模型的分布式计算系统解决以下细节:分割输入数据,在集群上的调度,机器的错误处理,管理机器之间必要的通信。这样就可以让没有并行编程经验的程序员利用大量分布式系统的资源了。基于MapReduce编程的优点,本文在分析当前各种分布式计算系统的基础上,设计了一个运行于普通廉价机器上的可扩展的分布式计算平台。首先我们对比当前几种流行的分布式计算技术,总结各自的优缺点,提出了更适合于分析海量数据的分布式计算平台框架。然后从平台总体架构上进行设计,合理地设计了各个功能子模块。我们花了大量笔墨于系统I/O模块和MapReduce模块,因为系统I/O的好坏将直接影响到系统的整体性能。而MapReduce模块是整个系统的核心,精心设计的MapReduce子模块是对系统良好运行的保证。最后,我们对影响到系统性能的关键策略进行探讨,包括作业和任务调度,容错机制等。
其他文献
21世纪以来,中国的彩票行业取得了极大的发展,在筹集大量公益资金的同时也兴办了各种福利和体育事业,并且还为人们提供了一种娱乐方式。在彩票销售网络体系中,除少量竞猜标准
近年来物流事业的发展势头如火如荼,物流园区更作为一项新兴的物流综合发展项目被广泛的实施建设以及论证研究,其在国民经济发展中地位越来越重要。于此同时物流园区项目的投
煤中重金属元素的含量及其在煤中的赋存状态是影响其在煤炭加工和利用过程中环境效应的决定因素,对煤中的微量元素进行定量和赋存状态的研究,能够为煤中有害微量元素迁移、富
<正>杰里米·里夫金,美国经济趋势基金会主席,"第三次工业草命"概念和理论的创立者,近年来全球最受关注的经济学家。他对美国以及世界各地的公共政策制定影响巨大,曾帮助各国
总结一例风湿性心脏病二尖瓣机械瓣置换术后并发高血钾致恶性心律失常的护理体会:认为CCU护士要有较高的心血管专业知识,保证临时起搏器、呼吸机的正常运转,识别恶性心律失常
<正>2008年以来,国家密集对沿海经济区域做出了新一轮的战略规划与部署。沿海省份自从广西北部湾、海南国际旅游岛、上海国际金融和航运中心、江苏沿海、山东"蓝色半岛经济区
会议
目的:探讨吸烟、吸烟量、烟龄与血脂指标的关系及注意事项。方法:采用美国产Beck—manDXC800全自动生化分析仪对200例吸烟者及100例不吸烟健康者血脂指标(血清总胆固醇、甘油三
2009年,教育部下达了增加全日制专业学位硕士研究生招生5万名主要用于招收应届本科毕业生的规定,标志着全日制专业学位硕士研究生的招生和培养工作正式启动。全日制专业学位
射频识别(RFID)技术是一种非接触式的自动识别技术。因为具有非接触、工作距离长、适用于恶劣环境、可识别运动目标等优点,RFID技术已被广泛应用于工业自动化、商业自动化、
航天技术是一个国家科技实力、国防实力和综合国力的重要标志之一,质量管理是航天技术开发与应用的重要保障,质量基础又为质量管理提供了坚实基础和重要保证。随着新时期中国