MapReduce:亚马逊云服务再添新援

来源 :中国计算机报 | 被引量 : 0次 | 上传用户:szxszxszy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  如果你有一个大型分布式处理问题需要解决,同时又预算吃紧,就很有必要了解一下Hadoop,然后考虑Amazon的Elastic MapReduce来解决问题。Amazon Web Services(AWS)日前发布了Amazon Elastic MapReduce的公共测试版,这是一项可以让商务人士、研究学者、数据分析员和开发者处理数据的网络服务。
  
  它采用了托管的Hadoop框架,运行在AmazonEC2和AmazonS3的网络架构下。Amazon Elastic MapReduce大幅缩短了时间、降低了复杂度以及执行数据密集型任务所需的成本。同其他AWS提供的服务一样,Amazon Elastic MapReduce的用户只需为他们使用的部分付费。
  
  Hadoop一览
  
  Hadoop是一个开源的分布式计算平台,它主要由MapReduce的算法执行(即map/reduce函数)和一个分布式的文件系统(即S3)等两部分组成。去年起Hadoop就已经可以在Amazon EC2上运行了。这将使开发者可以快速搭建起他们自己的服务器集群。
  
  Hadoop框架中最核心的设计是MapReduce和HDFS。简单用一句话解释MapReduce就是“任务的分解与结果的汇总”。HDFS是Hadoop分布式文件系统的缩写,为分布式计算存储提供了底层支持。Hadoop的内部架构基于MapReduce框架。MapReduce的运行机制在J.Dean和S.Ghemawat合著的文档中有着很清晰的描述,正因如此,本文换了一个角度,将重点放在实例的说明上。
  
  Amazon Elastic MapReduce自动地在Amazon EC2实例上驱动一个MapReduce框架的Hadoop实现。它会按照客户的需求自动启动并配置一定数量的AmazonEC2实例,然后产生一个根据MapReduce编程模型的Hadoop任务,通过它从AmazonS3中读取大量的用户输入数据,将任务流中的数据分解为更小的块分摊给生成的AmazonEC2实例去进行并行处理,并最终将处理后的数据重新组合在一起成为最后结果。数据处理完成后,它会将数据重新组合并简化为一个最终结果,并将该结果返回给AmazonS3。Amazon S3作为被分析的数据源,也作为最终结果输出的目的地。
  
  云中的MapReduce
  
  用户访问Amazon Elastic MapReduce 的第一站是AWS的登录页,用户必须在该页面注册Elastic MapReduce服务,然后进入AWS管理控制台并且登录。AWS控制台是一个专门为Amazon EC2提供的控制面板,显示新增的Amazon Elastic MapReduce选项卡。单击该选项卡后,用户将进入工作流页面,在这里就可以监控当前工作流的实时状况了,同时也可以检查之前的工作流细节。
  
  如果用户想要定义一个新的工作流,系统会提示用户在文本框中确定输入数据的路径、输出数据的路径以及map和reduce函数的路径。
  
  Amazon Elastic MapReduce接受两种类型的工作流:“自定义jar”以及“流(streaming)”。”自定义jar”类型的工作流需要map和reduce函数位于编译过的Java类中,并且以Java Jar形式储存。Hadoop框架是基于Java的,因此一个自定义工作流会提供更好的性能。与之相對,“流”类型的工作流可以让用户通过非Java语言方式自行编写map和reduce函数。“流”类型的工作流函数从标准输入流中读取输入数据,并将输出发送到标准输入流。因此,数据流以字符串方式输入或输出。
  
  一旦用户指定工作流组成部分的路径,也就确定了执行作业的EC2实例的个数及处理能力,用户可以选择多达20个EC2实例,如果超出20个,则必须填写一份特定的申请表格。用户对计算实例的选择范围可以从小型到大型高速CPU,并可以通过查看Amazon文档获得完整CPU实例的功能描述。接下来的步骤就是处理了。一旦确定了所做的配置,任务就启动了,之后将返回到工作流页面,在该页面中监控任务进程。当工作完成后,用户的输出数据就被储存到指定的S3桶中了。
  
其他文献
BAO是IBM 2009年4月推出的服务,它融合了战略、信息管理、高级分析和行业洞察,帮助企业快速决策。BAO由IBM信息管理软件部门(IM)和全球企业咨询服务部(GBS)共同推出。在推出一年多后,BAO已经积累了不少用户,特别是在银行业得以迅速发展。  银行成为BAO的重要客户。首先因为银行需要掌握准确的数据以保证合规。BAO业务可以帮助银行实现自身数据仓库的科学建立并能提供一系列方法帮助实现数
联想CEO杨元庆:    联想一两年内扭亏    5月21日,联想集团发布2008/2009财年全年业绩。财报显示,联想集团2008财年营业收入149亿美元,同比下滑8.9%,亏损2.26亿美元,上年为盈利4.8亿美元。这是联想集团成立25年来最大的一次亏损。柳传志称,联想最坏的时期已过,“我上任和杨元庆任CEO,将成为联想摆脱困境走向胜利的转折点。五年之内联想将从业务和内部的管理及文化上实现根本
Phone、Android、Windows Mobile等智能手机在手机市场上打得传统手机厂商只有招架之功的背后,是苹果、Google、微软等计算厂商抓住了移动通信市场从语音服务转向数据服务这一历史性的机遇。  作为计算基础的处理器厂商,英特尔也在不停地积蓄力量。今年年初在巴塞罗那举办的世界通信大会上,英特尔与诺基亚联手发布了嵌入式操作系统MeeGo。如果说与全球最大的手机厂商合作,英特尔的目光就
对于一个规模化的企业来说,确保企业内部电脑资源的共享是减少沟通成本的快捷方式。更多样化的交流方式和更低的管理成本,是每一个企业都追求的目标,尤其是当面临一个项目运作的时候,人员之间的协同变得尤为紧迫和重要。    Windows 7的出现使这些要求变得简单易行。对于用户之间的联系,Windows 7提供了很多功能来满足客户在这方面的需求。“试用Windows 7后,我觉得它人性化的功能方便了我们员
编者按:    冷冰冰的网络设备因为操作系统才有了鲜活的生命。    不同品牌的路由器、交换机,外表上看差别不大,真正让思科、Juniper、H3C等厂商们角逐的其实是设备内部看不见的操作系统。从本期开始,我们将开设“网络设备操作系统较量”专栏,从模块化选择、安全性比较、开放性设计等角度,分期为您展示网络设备背后的技术竞争。    网络设备操作系统较量(一)      一个好的操作系统,对网络设备
在IT行业竞争日趋白热化的今天,笔记本电脑生产已经成为许多电脑生产企业利润增长的重点。当前,随着消费者个性化需求的兴起,笔记本电脑被赋予了时尚化、生活化等诸多元素。作为IT产业的领导厂商,戴尔不断推进笔记本电脑产品在功能、配置和服务质量方面的提高和创新,同时也非常注重笔记本电脑工业设计的发展。  戴尔在笔记本电脑工业设计的创新贯穿在所有的产品线当中,具体体现在以下几个方面:    兼具美观、功能与
2010年10月18日,国务院出台了《国务院关于加快培育和发展战略性新兴产业的决定》,将新一代信息技术列入七大战略性新兴产业,并明确提出要“促进云计算的研发和示范应用”。随后,工业和信息化部与国家发展和改革委员会联合印发了《关于做好云计算服务创新发展试点示范工作的通知》,将北京、上海、深圳、杭州和无锡确定为发展云计算的先行试点示范城市。  这两个国家级政策文件的出台,向业界传递了一个信号:我国将支
在2010年的爱德曼信任度评估报告中,科技企业的用户信任度在各类型企业中高居榜首。“不断创新,是这类企业赢取用户信任的原因。”爱德曼执行副总裁、全球科技业务负责人Pete Pedersen如是说。在他多年研究不同角度的传播以及传播发生的变化的过程中,他深刻地了解到企业,尤其是IT企业,是如何在不断为用户提供更好的解决方案的同时获得用户信任的。  在报告中,我们看到,不同的大洲,乃至同一大洲的不同地
数据压缩也好,重复数据删除也罢,只要是能更有效地消除冗余数据,对于追求低成本、高效率的存储用户来说都具有现实意义。虽然重复数据删除谈了两三年,但是许多人对这项技术仍一知半解,在应用中存在诸多误区。    误区一:重复数据删除是一个独立的产品    重复数据删除的好处很多,比如可以有效减少存储介质数量,减少数据传输所需的带宽,提升备份和恢复性能等。但是重复数据删除并不是万能的,不能解决数据备份面临的
7月28日,由苏宁电器主办的2010中国PC行业发展高峰论坛在南京举行,这是时隔三年之后,苏宁电器再次主办该论坛。而苏宁在包括PC在内的3C产品上的销售规模已从3年前的50亿元快速增长到今年的近150亿元。  苏宁电器新任总裁、营销总部执行总裁金明表示,苏宁已经明确了将包括PC在内的3C产品作为未来发展的支柱品类,并已经制定了在3年之后销售规模达到350亿元的目标。据苏宁测算,3年后,中国3C产品