开源模式:促进大数据发展的主导力量

来源 :中国计算机报 | 被引量 : 0次 | 上传用户:lhmfly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  从云计算、大数据、物联网、人工智能等新一代信息技术创新历程可以清晰地看出,开源模式活跃在各个领域,更为重要的是,随着全球各大科技巨头的竞相加入,开源模式正逐渐成为推动大数据等各领域技术创新的主导力量。
  开源已成为大数据技术创新的主要模式
  大数据源于开源,并基于开源不断演进发展,自身就已具备了开源基因。经过若干年的发展,开源软件和开源工具已经覆盖了大数据产业发展的各个环节,基于开源软件,企业可以快速构建大数据应用平台,提供丰富的大数据开发和应用工具。当前,从小型初创企业到行业科技巨头,各种规模的企业都在使用开源软件和工具做大数据处理和基于数据的预测分析。由此可见,开源不仅驱动着大数据技术的创新演进,也推动着大数据产业的不断进步,对繁荣大数据应用生态起到了不可忽视的作用。
  严格来说,大数据并不是一个产业或市场,而是一类问题,或者一种思维。从这些思维和问题中获得价值,需要完整的信息基础设施,并配套以相关的技术和工具,这些共同构成大数据应用的生态。因此,把大数据当作产业来看待,其生态体系的外延是非常广阔的。
  狭义来看,按照应用流程,大数据生态链包括数据采集、数据存储、数据应用和数据可视化等环节;从广义来看,大数据生态链贯穿数据的整个生命周期,包括各种基础设施和软件系统,从数据的产生到采集、传输、分享到存储,再到分析挖掘,直至最终的呈现与应用。从技术的应用范围和重要性可以看出,数据的存储、数据处理、价值挖掘和数据可视化等是大数据产业环节中的重点领域。
  开源技术创新引领大数据基础平台演进
  对于云计算发展而言,开源基础平台如OpenStack、CloudStack的发展是推动云计算技术创新和行业应用的关键。与之类似,大数据的发展与开源软件的不断创新密切相关,在大数据处理平台这个基础性并处于核心地位的环节,开源技术的创新成为了引领其不断演进的主要动力。
  Hadoop是推动大数据应用的基础平台,是基于GFS和Mapreduce的开源实现。尽管在Hadoop之前也有一些类似的分布式存储和计算平台,但真正能实现工业级应用、大幅降低应用门槛、带动各行业大规模部署的无疑当属Hadoop。受益于MapReduce框架的易用性和容错性,以及对先进存储系统和计算系统的集成,Hadoop成为大数据处理平台的主要基石。
  在大数据产业发展的初期,Hadoop可满足90%以上的离线存储和离线计算需求,它成为各大公司早期大数据平台的首选。可以说,没有Hadoop就没有今天的大数据产业发展。自Hadoop起,大数据平台几经升级及更替,发展出两主线、多支线的演进态势,但不管是主线亦或是支线,开源都是大数据平台技术创新的主要模式,开源软件始终是大数据基础平台的重要属性。
  主线一是Hadoop生态,主要组成包括Hadoop、Pig、HBase、ZooKeeper、Hive、Yarn和Impala,主要组件提出于2008年之前,Yarn和Impala分别提出于2011年和2012年。Pig是一种开源编程语言,可加载数据、表达转换数据和存储最终结果,其内置操作可处理半结构化数据;HBase是一个分布式的、面向列的开源数据库,在Hadoop之上提供了类似于Bigtable的能力,是一个适合于非结构化数据存储的数据库;ZooKeeper是一个分布式的开源分布式应用程序协调服务,可提供配置维护、名字服务、分布式同步、组服务等功能;Hive是一个基于Hadoop的数据仓库工具,可以将结构化的数据文件映射为数据库表,并提供简单的SQL查询功能;Yarn是一个全新的MapReduce框架,可为从根本上解决传统MapReduce框架的性能瓶颈,对促进Hadoop框架应用发展发挥重要作用;Impala可以直接为Hadoop数据提供快速,交互式的SQL查询。
  主线二是Spark生态,包括Spark、Shark、SparkStreaming、Bagel、GraphX、SparkSQL等,Spark提出于2009年,主要生态组成提出于2011年至2014年。
  Spark是开源类Hadoop框架,可将中间输出结果保存在内存中,因此计算速度较Hadoop有几倍到几十倍的提升,在成熟之后得到了迅速普及;Shark可通过Hive的HQL解析将其翻译成Spark上的RDD操作,具有运算速度快、兼容性强等特点;Spark Streaming、Bagel、GraphX、Spark SQL等开源软件均以Spark为基础,从实时计算框架、图计算模型、图模型API、数据查询等方面对原有平台进行了优化或补充。
  除Hadoop、Spark之外,还涌现出了一批支线平台,绝大多数是开源的,主要代表有Hypertable、Cassandra、Dryad、S4、Kalka、Haloop和Storm。其中,Storm完全摆脱了MapReduce架构,重新设计了一个适用于流式计算的架构,以数据流为驱动触发计算,计算时效性高,适应有向无环图计算拓扑的设计,计算方式较为灵活,在业界得到了一定的部署应用。
  科技企业是大数据开源软件发展的主要力量
  表面上看,大数据基础平台和主要环节的技术创新均是基于开源模式推动的,全球各界人士均有平等的参与和应用机会。但是,从技术演进的确定权和影响力来看,大数据领域的技术创新离不开全球主要科技企业的参与。
  科技企业既是大数据技术创新的主要力量,同时也围绕开源世界的游戏规则不断扩大行业影响力,紧抓技术创新前沿,抢占大数据技术发展和标准制定的话语权,培育发展形成以企业核心竞争力为中心、以开源为主要方式的新型产业生态。
其他文献
一、拒绝服务攻击威胁将继续升级,影响基础网络稳定运行。分布式反射型攻击将继续是实施拒绝服务攻击的重要形式,攻击者将不断分析挖掘更多可被利用的网络协议,增加攻击威力,突破防护措施,大量联网智能设备将成为发起攻击的重要工具。针对域名系统的攻击将继续呈频发态势,不仅影响受害目标,而且波及整个基础网络。  二、移动恶意程序借助“加固”手段对抗安全检测的情况将更加普遍,利用仿冒应用实施钓鱼欺诈的现象将更为猖
全球营收超过50亿美元的软件企业只有五家,包括微软、SAP、Salesforce、VMware 和Oracle。这就好比篮球场上的5位主力球员。那么谁能成为全球软件领域这支特殊队伍的“最佳第六人”呢?红帽算得上一个理想的候选人。  新财年从3月1日开始的开源软件领导企业红帽公司宣布了一条振奋人心的消息:在上一个财年,公司营收达到20.5亿美元。  这是一个里程碑式的事件,一个开源软件企业营收超过2
工业无线传感器网络为系统级应用,即包括现场无线传感器、数据转发网关和监控主机等在内的整体解决方案。因具有成本低、范围大、布设灵活、移动支持等特点,工业无线传感器网络在力学参数检测、工业监控、智能电力、矿山安全、医疗健康、环境监测等行业的应用一直广受重视。与此同时,工业无线传感器网络也面临着延长节点工作时间、增加通信距离、小型化、标准化等技术挑战和寻找应用场景等市场挑战。   从有线网络到无线网络
最近,由于热播电视剧《欢乐颂》中“五美”的人设(人物设定),被众多网民热议,“人设”一词得到了更大的普及。“人设”这词若引申到企业圈,就是企业展示出来想让客户或用户喜爱的一个固有化形象。  再联想一下,似乎跟现在如火如荼的企业级SaaS有着异曲同工之妙。比如:纷享逍客的“纷享”设定,智齿客服的“智能”设定,销售易的“销售”,企业微信的“微信”,阿里钉钉的“工作方式”……  4月26日,阿里钉钉举办
IT服务的发展分为两个阶段。第一个阶段是为IT服务,第二个阶段是用IT提供服务。从IT服务商的角度来说,两个阶段的转变也是从提供产品和服务到提供完整体验的转变。  一直以来,IT服务这个领域,市场体量仍保持持续增长的态势。IT服务市场是技术驱动的市场,从技术发展角度看,架构也在发生变化,尤其是当移动互联、云计算、大数据等这些新的技术广泛应用之后,IT服务市场也获得了新的发展机遇。而同时,新机遇又向
数据中心是信息处理的核心设施,中国稳定的经济增长以及庞大的人口基数,都为数据中心的长期高速发展奠定了基础。同时,全球物联网、云计算、移动互联等大潮已起,互联网 、工业4.0等为标志的新一代工业技术也来临,这些在极大改变现有世界,同时,也将带来几何级数的信息量、数据量增长。因此,数据中心的需求一定会快速稳定增长,网络能源基础设施的需求同样会快速稳定增长。  2016年4月15日,主题为《智慧数据中心
本报讯 迅雷近日发布2015年第四季度财报和2015年全年财报。财报显示,迅雷2015年第四季度总营收达到3510 万美元,同比增长4.8%。迅雷2015年全年总营收为1.30亿美元。迅雷董事长兼CEO邹胜龙表示:“过去一年,迅雷在以下两方面取得了重大进展;一、云计算业务(水晶计划)在2015年第四季度增长势头更加明显;二、迅雷在移动互联网广告业务上取得了显著增长,这一增长推动着迅雷进一步向移动互
高速商用市场一直是打印机厂商非常重视的市场之一,佳能近日针对这一市场推出了新款的MAXIFY喷墨一体机MB5480。相比之前的产品,MB5480在打印速度、可靠性、易用性、经济性等方面均有突出表现,为小型企业和工作组用户带来了办公打印新选择。  “佳能正在发力商务打印市场,为初创企业、小企业及工作组、大中型企业提供涵盖激光和喷墨的多样化商用打印产品选择,为其打造商机,加速企业成长步伐。” 佳能(中
9月27日,由开放数据中心委员会(ODCC)主办,百度、腾讯、阿里巴巴、中国电信、中国移动、中国信息通信研究院和英特尔承办的“2016开放数据中心峰会”在京召开。在会上,ODCC主席、百度系统部副总监张炳华发布了ODCC的13项最新研究成果。其中,ODCC主导的天蝎整机柜服务器部署规模正在不断扩大,预计到2016年底累计部署规模将接近1万架,产业价值将达100亿元。  ODCC大胆尝试天蝎3.0 
2014年,Pivotal公司对现有产品进行重新整合,并宣布Cloud Foundry全面走向开源。  Pivotal Cloud Foundry的销售也进入了“井喷”时代。  12月2—3日,由Cloud Foundry基金会举办的首个Cloud Foundry亚太峰会将在上海举行。Pivotal、EMC、微软、VMware、华为、安尚云信等企业都参加了本次会议。Cloud Foundry能否在