云计算大数据与Hadoop

来源 :计算机世界 | 被引量 : 0次 | 上传用户:fujilee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  人们认识到云将接收并处理前所未有的巨大数据量,分布式并行计算框架Hadoop也被越来越多的企业所应用。
  孙定 sun_ding@ccw.com.cn
  
  美国奥巴马总统委员会的科学技术顾问Stephen Brobst说:“过去3年里产生的数据量比以往4万年的数据量还要多,大数据时代的来临已经毋庸置疑。我们即将面临一场变革,常规技术已经难以应对PB级的大规模数据量。”Neol and Associates公司的著名分析师Mike Karp也指出,目前越来越多的企业采用Hadoop来存储和分析大
  数据。
  美国《经济学人》2010年曾经报道,沃尔玛的数据量是美国国会图书馆的167倍;eBay的分析平台每天处理的数据量高达100PB,超过纳斯达克交易所每天的数据处理量。根据IDC数据,到2020年,电子数据存储量将在2009年的基础上增加44倍,达到35万亿GB;截止到2010年,电子数据存储量已经达到了120万 PB,或1.2ZB。非结构化信息如文件、电子邮件和视频,将占未来10年新生数据的90%。Gartner也指出,传统数据库在数据增长如此迅猛的当下远不能胜任。
  Hadoop分布式并行计算框架,是Apache的开源项目,已有7年的历史。Hadoop的核心是HDFS(分布式文件系统)和MapReduce(映射与归约)计算模型,MapReduce的思想来自于谷歌2004年发表的一篇论文。
  HDFS分布式文件系统将一组数据分发给不同的机器并且提供冗余处理。比如,可以对每一个数据在3个不同的节点上进行复制,一旦一个数据所在节点出现问题,还有两个其他节点的相同的数据可以使用。MapReduce计算模型中的Map将一个任务分解为多个任务,产生特征数据,Reduce将多个执行结果汇总得到最终结果。
  2008年7月,Hadoop打破1TB数据排序基准测试纪录。Yahoo!的一个Hadoop集群用209秒完成1TB数据排序 ,比上一年的纪录保持者快了将90秒。2009年5月,进一步将时间缩短到62秒。2007年,百度开始部署Hadoop用做日志处理。2008年,淘宝部署基于Hadoop的云梯。云梯的总容量大概为9.3PB,1100台机器,每天处理约18000道作业,扫描500TB数据。Facebook、Linkedin、Amazon、EMC、eBay、Twitter、IBM、Microsoft、Apple、HP等都已是Hadoop的用户。
  在产业方面,IBM提供基于Hadoop的大数据分析软件,推出了在Hadoop架构上建立作为群集运行DB2或Oracle数据库的集群系统,并提供Hadoop的部署与实施服务。EMC于2011年5月推出基于Hadoop数据中心设备——GreenPlum HD。2008年,微软收购Powerset,并将Powerset基于Hadoop的技术应用于搜索引擎bing搜索引擎。
  Ventana Research公司分析师David Menninger认为,企业将显著提升对于开源软件Hadoop框架的兴趣,未来将有更多的供应商和更多的生产商加入Hadoop行列。
  由此,我们就可以看出这样一个脉络:云计算必须支持大数据,面向大数据处理的新一代技术Hadoop已经浮出水面并日趋流行。
其他文献
全球第二、亚洲最大的国际电脑展Computex再次在台北拉开帷幕。这一次,各大参展厂商又带来了哪些新品?    拥有30年历史的台北国际    电脑展(Computex)是全球第二、亚洲最大的国际电脑展,也是亚洲地区最大的B2B贸易平台。6月1日~5日,第30届Computex在台北市拉开帷幕。今年的Computex共有1715家厂商与会、使用4861个摊位,分别比去年增加50家厂商及205个摊位
贵州作为“两化深度融合行”的全国首发站,将在“十二五”期间进一步发挥信息化对工业化的带动和引领作用,促进工业转型升级。    “信息化能否带动工业化,10年前90%的国人就有这样的疑问。如今,工业发展的历程已经清晰的告诉我们,工业在转型升级、调整经济结构、转变发展方式的过程中,信息化的引领是必要的,不可回避的。不同行业和处于行业不同发展阶段的企业都要实现信息化引领,高端要实现信息化的世界引领,低端
上海浦东软件园举行十周年庆典    本报讯 3月18日,上海浦东软件园举行了“锐意创新、睿智十年”开园十周年庆典。工信部以及上海市相关领导出席,另有200多家园区企业参加了庆典活动。庆典中,上海浦东软件园向30家园区优秀企业颁发了开园十周年“携手共进奖”、“开拓创新奖”和“突出贡献奖”,同时与6家企业签署入驻协议。据悉,上海浦东软件园是在国家部委和上海市人民政府的合作协议基础上成立和发展起来的。十
能源的未来是什么?泛能网和系统能效是能源技术的发展和IT技术的发展不期而遇引起的一次能源革命,不仅具有理论指导意义,更具有现实意义。    由于水、气、电、热网各行业间相互隔离,各能源供需的峰谷自身无法解决。像北京市冬夏燃气需求峰谷比超过10:1,这就使得本来有限的资源不能得到充分利用或被白白浪费,造成了巨大的经济损失。  因此,天然气公司、电力行业、暖通空调行业需要打破原有的行业壁垒,将冷、热、
备份是一个老生常谈的话题,但真正能做好的企业并不多。对于一个分布式企业生产数据管理系统来说,其备份与应急系统的建立能够完善备份与应急方案机制,增强系统应对各种风险的能力,确保其安全、稳定、高效地运行。  为了确保企业生产数据管理系统中数据的完整性和安全性,以及应用的不间断稳定性,我们针对系统的应急和备份特点,对现有市场中的备份产品进行了分析、调研、测试和研究,并针对如何在确保数据安全的基础上提高业
本报综合报道 日前,2011年通信业推进我国中小企业信息化调研报告会暨中小企业信息化经验座谈会召开。来自工业和信息化部等政府主管部门、电信运营企业、中小微型企业、专家学者等150余位代表出席会议。  工信部总工程师朱宏任指出,电信运营商在从通信服务向信息化服务转型的过程中,通过平台建设和集成服务资源,以较低的经营成本为中小企业提供了经济、便捷的信息化解决方案和专业化服务,减少了中小企业在信息化建设
英特尔再度成了半导体行业最赚钱的企业。近日,美国英特尔公司公布了财务报告,报告显示,今年第一季度英特尔的净利润达到24.4亿美元,与去年同期的6.29亿美元相比增长近3倍。与此同时,公司当季营收也达到103亿美元,同比增长44%,远远超出市场分析师的预期。  英特尔总裁兼首席执行官欧德宁表示,业界领先的产品、全球不断增长的市场需求和持续强大的执行力创造了英特尔历史上最佳的第一季度财报。据悉,英特尔
本报综合消息 美国AT
新闻出版总署(国家版权局)是国务院主管新闻出版事业和著作权管理的直属机构。在著作权管理上,以国家版权局名义对内对外单独行使职权。新闻出版总署信息中心(互联网出版监测中心)主要承担总署办公自动化系统和相关网站的建设、维护、管理,对互联网出版内容进行监测分析等职能,并承担行业信息化、标准化建设相关工作。中心设有综合部、互联网监测部、技术保障部、工程项目部、运行维护部共五个部门。   “十二五”时期,新
作为CA World 2011的赞助商,IBM也参加了本次大会,虽然IBM的展台规模不大,但是展品却绝对是重量级的。IBM带来了一台最新的zEnterprise 114主机系统,和这台“大机”遥相呼应的是,在整个展示区的近1/4区域,都是CA关于下一代主机管理的展区。  CA大机业务总经理DaytonSemerjian表示,CA未来针对大机的策略之一就是要让大机也成为云计算中总要的成员,把来自大机