论文部分内容阅读
就在去年刮过云计算之风,其中部分“泡沫”已经破裂,人们的关注度有些下降之后。大数据这个概念又被一些厂商“利用”为宣传利器,EMC作为其中的代表从去年EMC World 2011大会就开始发动了攻势。
可能是由于工作经历的缘故,笔者对云计算、大数据,包括由后者而提出的CDO(首席数据官)这些新的热点话题,其中偏概念而非具体技术的部分,在一段时间内持谨慎旁观的态度。从用户的需求来看,真的是“老同志遇到新问题”了吗·当然IT技术、应用模式的发展,对业务不断提出了新的要求。海量增长的非结构化、半结构化数据中确实有值得挖掘的价值,但这并不等于人们就要一下子更换全新的方法、工具来处理它们。就像需求是渐进式的增长一样,业务的变革也是渐进式的。
在《纪录中国——企业存储的自主之路》一文中,笔者曾经谈到了一些国内存储品牌自主的研发理想和OEM转销的现实。而本文我想以部分厂商为代表,“批判”或者说“揭露”对大数据宣传背后的实质内容。其中可能不完全是肯定的,总之希望读者能够更全面、客观的看待大数据这个概念。当然,我的评论中也可能会有不当之处,欢迎大家提出不同意见,批评指正。
大数据世界论坛:2011和2012的不同
首先,我想提一下去年和今年在北京举行的大数据世界论坛(BIG DATA World Forum)。个人感觉今年参与(赞助)的厂商没有去年多,也相对缺乏有新意的话题。
退出的几家厂商大致包括:比如说Teradata(天睿),去年他们谈的数据仓库;IBM Netezza的资深专家去年发表了精彩的演讲,他们的产品也属于一种新型的数据仓库,与Teradata的通用x86硬件相比增添了FPGA(现场可编程门阵列)芯片来加快数据从存储中调出的筛选速度;SAP去年还不否认他们的HANA内存计算方案属于“大数据”,而今年就开始宣称“大数据是个谎言”——传统列式数据库就能很好地处理大数据。
还有EMC。这里倒不是说EMC不再重视大数据,而是就Greenplum核心产品线本身而言并没有太多的变化——仍然分为Greenplum Database(数据仓库)、Greenplum HD(Hadoop分析)和Greenplum DCA(数据计算设备),后者还是基于高性价比的工业标准x86服务器的MPP(大规模并行处理)分布式可扩展架构。站在厂商的角度,如果没有更多的新鲜东西,过多的投入资源来重复宣传显然不划算。因此EMC将其Atmos云存储(对象存储)、Isilon集群NAS都囊括在大数据的概念下,当然也有技术方面的努力,比如Isilon对HDFS(Hadoop文件系统)的支持,但其实用价值有多大就是个见仁见智的问题了。
EMC Greenplum在与数据打交道的各种用户之间又加入了一个“Chorus-分析生产力层”。也就是说Chorus是处于Greenplum结构化/非结构化数据平台和用户分析应用之间的衔接部分。
至于SAP的策略转变,估计和他们的产品有一定的独特性有关,适合的应用场景也与众多基于Hadoop开源方案的产品有着较大的不同。因此SAP可能觉得与“那些人”站在同一条起跑线上有些吃亏·索性就干脆划清界限——“我有成熟的Sybase数据库,而且它能够满足当今用户的需求。”
前面提到的都不是什么新闻了,而且这几家厂商(或者被收购的业务部门)都是做数据库或者数据仓库出身的,相对而言与大数据的关系还比较紧密一些。接下来笔者想就最近发生的一些事件,几家看似与大数据不相关的IT厂商推出的策略,发表些简单的观点。
VMware:让Hadoop运行在虚拟机上·
应该说这种应用方式不是最近才提出的,而上周三(8月8日)在北京举行的“VMware & EMC大数据云高峰论坛”让我们重新思考一个问题。随着EMC和VMware高层一系列变动日期的临近,Cloud Foundry将要与Greenplum等业务重新组合在一起,也就是云(PaaS)和大数据(数据仓库+分析)的联合·
“让Hadoop运行在虚拟机上,VMware号称性能下降在10%以内,在某些情况下,用虚拟机运行Hadoop的性能甚至能够超过物理机·”
谈到性能,这就像EMC表示其存储在虚拟化环境下运行一些关键应用的效率高于物理机一样。这其实只代表EMC存储对VMware的支持好,因为对应的那几种应用性能瓶颈都是在存储而不是计算上。单纯就x86服务器而言,虚拟化Hypervisor做得再好也不可能提供超出物理资源的性能啊。
我们再来看看EMC官方的说法。
虚拟化对Hadoop的四大促进作用:第一、让Hadoop适用于多租户环境,因为不同部门可能都需要各自的Hadoop集群。第二、提高Hadoop的安全性,VMware虚拟化在不同集群之间产生强隔离。第三、提高Hadoop的可伸缩性,使得它很容易进行伸缩加减节点。最后一点当然是增加CPU的利用率。
而有业内人士发表了不同的观点:
“除了部署灵活性之外,在性能、安全性、资源利用率方面均不具备优势,在部署方面有人说虚拟机多么好,但是我并不觉得如此,Hadoop的部署很简单,如果部署HA,则可以考虑采用大云的自动化HA方案。
但是如果你的数据已经在(Amazon)S3上面,则不得不使用虚拟机了,无论是EMR,还是自己搭建。”
也就是说,虚拟化是Hadoop与云计算结合的一个点。虚拟化的隔离做得再好也是在一台物理机内部的隔离,而Hadoop常规的集群部署则是物理上的隔离;像服务器虚拟化那样提高CPU利用率是个好想法,评价Hadoop应用的资源过剩还是瓶颈不一定是由CPU决定的,有可能是各节点的存储(HDFS)。EMC的想法是将数据放在Isilon或者VNX集中存储上·但这样做没有成本优势。
另有一位业内朋友表示:
“本来HDFS都是架设在datanode(数据节点)的本地硬盘上的,现在又要通过网络再输出到共享硬盘上,网络的压力更大了,虚拟机环境的瓶颈本来就在存储和网络上,而且这样其实违背了Google的让计算离数据更近的初衷,个人不是很看好Hadoop架设在虚机上的效率。” Intel为什么也要玩Hadoop·
今年,Intel也把企业数据中心的市场宣传重点转移到大数据,其中也包括他们自己搞的Hadoop发行版。有些人不禁要问:Intel的核心业务不是在CPU上面吗·(笔者在“大数据时代:Intel Xeon、LSI SAS术业有专攻”一文中有过相关讨论)
确实,Intel给人的感觉不是一家软件公司。包括Xeon(至强)处理器在内的服务器平台产品线,于x86阵营中已经处于绝对的优势(AMD的份额已经基本没有威胁),即使面对RISC阵营也在不断蚕食后者(包括Itanium)的市场空间。那么Intel需要寻找新的增长点,在整个行业几乎都在喊云计算和大数据的情况下,能够免俗的人不多。
上图资料来自Intel,仅供参考
不知道有多少人了解,Intel的软件部门还有着上万名员工。曾经有同行表示:AMD相对Intel的一大软肋就是他们的软件优化能力不足。从C++、Fortran编译器,到如今充分发挥多核/多线程能力的Parallel Studio,Intel在处理器相关软件生态环境上的努力和收获都是看得见的。
一位在国内某大型互联网行业用户工作的朋友曾对笔者说,他们采用过AMD和Intel CPU的服务器,但后来用AMD就少了。因为他们体会到,购买相应平台的硬件,Intel还会帮助进行软件上的调优等支持工作。当然这个的前提应该是用户达到一定的采购规模。
所以说,尽管Intel在Hadoop方面的起步不一定很早,相关技术也不见得比本文前面提到的几个厂商搞得更好·但以Intel在行业内的影响力,还是会有人响应并且不能小看,就像他们面向企业存储市场的SSD(固态硬盘)910、710那样。
CommVault:大数据就是保留和归档·
CommVault这家在前几年发展迅速的存储软件公司,称自己的Simpana产品为数据管理一体化软件。为了便于大家的理解,我还是习惯于将其归类为数据保护软件,或者说有备份、CDP、归档等功能模块。如今我们看到CommVault也在谈大数据,并提到未来的Simpana 10新版本,以及分析功能。那么,此“大数据”等于彼“大数据”吗·CommVault也要搞像Hadoop那样的数据挖掘、分析吗·
尽管对此没有做较多的调研,但以笔者对这家存储软件厂商的了解,CommVault应该还是专注于自己擅长的细分领域,其功能还是围绕着数据管理和保护概念下的备份、归档等。所谓的“分析”功能有可能是类似于笔者曾经介绍过的惠普Data Protector 7软件,采用收购自Autonomy的IDOL(智能数据操作层)技术“基于语义的保护”,实现在备份的索引中,根据关键字或者其它参数来搜索想要恢复数据的功能。
既然人们可以将Autonomy视为大数据厂商,那么CommVault如果有类似IDOL那样便于数据查找、恢复的技术,说他们与超出传统备份软件厂商面对范围的大数据“沾边”也不为过·
CDO(首席数据官)之我见
CDO概念最初由国外提出,并且目前阿里巴巴已经任命了“首席数据官”这一职位。那么CDO会像CTO、CIO等那样普及开来吗·哪些企业需要设立CDO呢·
退回到2009年,笔者刚开始了解到CIO(首席信息官)这个称号。没错我以前真的不知道,经常与厂商市场营销部门和媒体打交道的人应该都不会陌生。但仔细想一下,我们能记住Intel、IBM、微软等知名厂商的CIO是谁吗·他们会像CIO、CTO那样公开发表言论吗·基本不会吧。信息化这个词感觉更好理解些,许多企业都需要不同程度地倚重这个IT管理部门,但我们除了在与那些CIO相关的供应商组织的会议之外,他们在日常工作中也会被称为CIO吗·
“首席信息官”中的信息,从字面意义上理解与IT建设似乎并不能画等号·在今天的大数据时代,已经有人提出“将数据变为有价值的信息”这个口号,那么对于负责实现企业中数据价值的leader而言,如果不是因为已经有了其它用途,“CIO”一词是否比CDO更为合适呢·如果只是单纯地负责存储设备上的数据,那与存储管理员又有多大区别·在大数据这个词流行之前,也有人从事数据挖掘、分析工作,将他们的职位归为某个业务部门,与现在部分人称之为CDO又有什么本质上的不同呢·
可能有人觉得笔者在这里给大数据和CDO这些概念“泼凉水”,其实我的初衷只是希望大家能够更加客观、冷静地看待大数据、相关技术和业务方式的变化,以及每个厂商口中的大数据有什么不同。
最后,让我们来换一个角度。如果说大数据、CDO这些新名词对用户的实际意义不大·或者说只是换了一个新的说法(概念)的话,但不等于它们对厂商的宣传和媒体而言也没有意义。毕竟市场需要造势,吸引关注需要“噱头”,产品技术也需要各种包装,才能被人们更好地理解认识,而不是冷冰冰地放在那里。
可能是由于工作经历的缘故,笔者对云计算、大数据,包括由后者而提出的CDO(首席数据官)这些新的热点话题,其中偏概念而非具体技术的部分,在一段时间内持谨慎旁观的态度。从用户的需求来看,真的是“老同志遇到新问题”了吗·当然IT技术、应用模式的发展,对业务不断提出了新的要求。海量增长的非结构化、半结构化数据中确实有值得挖掘的价值,但这并不等于人们就要一下子更换全新的方法、工具来处理它们。就像需求是渐进式的增长一样,业务的变革也是渐进式的。
在《纪录中国——企业存储的自主之路》一文中,笔者曾经谈到了一些国内存储品牌自主的研发理想和OEM转销的现实。而本文我想以部分厂商为代表,“批判”或者说“揭露”对大数据宣传背后的实质内容。其中可能不完全是肯定的,总之希望读者能够更全面、客观的看待大数据这个概念。当然,我的评论中也可能会有不当之处,欢迎大家提出不同意见,批评指正。
大数据世界论坛:2011和2012的不同
首先,我想提一下去年和今年在北京举行的大数据世界论坛(BIG DATA World Forum)。个人感觉今年参与(赞助)的厂商没有去年多,也相对缺乏有新意的话题。
退出的几家厂商大致包括:比如说Teradata(天睿),去年他们谈的数据仓库;IBM Netezza的资深专家去年发表了精彩的演讲,他们的产品也属于一种新型的数据仓库,与Teradata的通用x86硬件相比增添了FPGA(现场可编程门阵列)芯片来加快数据从存储中调出的筛选速度;SAP去年还不否认他们的HANA内存计算方案属于“大数据”,而今年就开始宣称“大数据是个谎言”——传统列式数据库就能很好地处理大数据。
还有EMC。这里倒不是说EMC不再重视大数据,而是就Greenplum核心产品线本身而言并没有太多的变化——仍然分为Greenplum Database(数据仓库)、Greenplum HD(Hadoop分析)和Greenplum DCA(数据计算设备),后者还是基于高性价比的工业标准x86服务器的MPP(大规模并行处理)分布式可扩展架构。站在厂商的角度,如果没有更多的新鲜东西,过多的投入资源来重复宣传显然不划算。因此EMC将其Atmos云存储(对象存储)、Isilon集群NAS都囊括在大数据的概念下,当然也有技术方面的努力,比如Isilon对HDFS(Hadoop文件系统)的支持,但其实用价值有多大就是个见仁见智的问题了。
EMC Greenplum在与数据打交道的各种用户之间又加入了一个“Chorus-分析生产力层”。也就是说Chorus是处于Greenplum结构化/非结构化数据平台和用户分析应用之间的衔接部分。
至于SAP的策略转变,估计和他们的产品有一定的独特性有关,适合的应用场景也与众多基于Hadoop开源方案的产品有着较大的不同。因此SAP可能觉得与“那些人”站在同一条起跑线上有些吃亏·索性就干脆划清界限——“我有成熟的Sybase数据库,而且它能够满足当今用户的需求。”
前面提到的都不是什么新闻了,而且这几家厂商(或者被收购的业务部门)都是做数据库或者数据仓库出身的,相对而言与大数据的关系还比较紧密一些。接下来笔者想就最近发生的一些事件,几家看似与大数据不相关的IT厂商推出的策略,发表些简单的观点。
VMware:让Hadoop运行在虚拟机上·
应该说这种应用方式不是最近才提出的,而上周三(8月8日)在北京举行的“VMware & EMC大数据云高峰论坛”让我们重新思考一个问题。随着EMC和VMware高层一系列变动日期的临近,Cloud Foundry将要与Greenplum等业务重新组合在一起,也就是云(PaaS)和大数据(数据仓库+分析)的联合·
“让Hadoop运行在虚拟机上,VMware号称性能下降在10%以内,在某些情况下,用虚拟机运行Hadoop的性能甚至能够超过物理机·”
谈到性能,这就像EMC表示其存储在虚拟化环境下运行一些关键应用的效率高于物理机一样。这其实只代表EMC存储对VMware的支持好,因为对应的那几种应用性能瓶颈都是在存储而不是计算上。单纯就x86服务器而言,虚拟化Hypervisor做得再好也不可能提供超出物理资源的性能啊。
我们再来看看EMC官方的说法。
虚拟化对Hadoop的四大促进作用:第一、让Hadoop适用于多租户环境,因为不同部门可能都需要各自的Hadoop集群。第二、提高Hadoop的安全性,VMware虚拟化在不同集群之间产生强隔离。第三、提高Hadoop的可伸缩性,使得它很容易进行伸缩加减节点。最后一点当然是增加CPU的利用率。
而有业内人士发表了不同的观点:
“除了部署灵活性之外,在性能、安全性、资源利用率方面均不具备优势,在部署方面有人说虚拟机多么好,但是我并不觉得如此,Hadoop的部署很简单,如果部署HA,则可以考虑采用大云的自动化HA方案。
但是如果你的数据已经在(Amazon)S3上面,则不得不使用虚拟机了,无论是EMR,还是自己搭建。”
也就是说,虚拟化是Hadoop与云计算结合的一个点。虚拟化的隔离做得再好也是在一台物理机内部的隔离,而Hadoop常规的集群部署则是物理上的隔离;像服务器虚拟化那样提高CPU利用率是个好想法,评价Hadoop应用的资源过剩还是瓶颈不一定是由CPU决定的,有可能是各节点的存储(HDFS)。EMC的想法是将数据放在Isilon或者VNX集中存储上·但这样做没有成本优势。
另有一位业内朋友表示:
“本来HDFS都是架设在datanode(数据节点)的本地硬盘上的,现在又要通过网络再输出到共享硬盘上,网络的压力更大了,虚拟机环境的瓶颈本来就在存储和网络上,而且这样其实违背了Google的让计算离数据更近的初衷,个人不是很看好Hadoop架设在虚机上的效率。” Intel为什么也要玩Hadoop·
今年,Intel也把企业数据中心的市场宣传重点转移到大数据,其中也包括他们自己搞的Hadoop发行版。有些人不禁要问:Intel的核心业务不是在CPU上面吗·(笔者在“大数据时代:Intel Xeon、LSI SAS术业有专攻”一文中有过相关讨论)
确实,Intel给人的感觉不是一家软件公司。包括Xeon(至强)处理器在内的服务器平台产品线,于x86阵营中已经处于绝对的优势(AMD的份额已经基本没有威胁),即使面对RISC阵营也在不断蚕食后者(包括Itanium)的市场空间。那么Intel需要寻找新的增长点,在整个行业几乎都在喊云计算和大数据的情况下,能够免俗的人不多。
上图资料来自Intel,仅供参考
不知道有多少人了解,Intel的软件部门还有着上万名员工。曾经有同行表示:AMD相对Intel的一大软肋就是他们的软件优化能力不足。从C++、Fortran编译器,到如今充分发挥多核/多线程能力的Parallel Studio,Intel在处理器相关软件生态环境上的努力和收获都是看得见的。
一位在国内某大型互联网行业用户工作的朋友曾对笔者说,他们采用过AMD和Intel CPU的服务器,但后来用AMD就少了。因为他们体会到,购买相应平台的硬件,Intel还会帮助进行软件上的调优等支持工作。当然这个的前提应该是用户达到一定的采购规模。
所以说,尽管Intel在Hadoop方面的起步不一定很早,相关技术也不见得比本文前面提到的几个厂商搞得更好·但以Intel在行业内的影响力,还是会有人响应并且不能小看,就像他们面向企业存储市场的SSD(固态硬盘)910、710那样。
CommVault:大数据就是保留和归档·
CommVault这家在前几年发展迅速的存储软件公司,称自己的Simpana产品为数据管理一体化软件。为了便于大家的理解,我还是习惯于将其归类为数据保护软件,或者说有备份、CDP、归档等功能模块。如今我们看到CommVault也在谈大数据,并提到未来的Simpana 10新版本,以及分析功能。那么,此“大数据”等于彼“大数据”吗·CommVault也要搞像Hadoop那样的数据挖掘、分析吗·
尽管对此没有做较多的调研,但以笔者对这家存储软件厂商的了解,CommVault应该还是专注于自己擅长的细分领域,其功能还是围绕着数据管理和保护概念下的备份、归档等。所谓的“分析”功能有可能是类似于笔者曾经介绍过的惠普Data Protector 7软件,采用收购自Autonomy的IDOL(智能数据操作层)技术“基于语义的保护”,实现在备份的索引中,根据关键字或者其它参数来搜索想要恢复数据的功能。
既然人们可以将Autonomy视为大数据厂商,那么CommVault如果有类似IDOL那样便于数据查找、恢复的技术,说他们与超出传统备份软件厂商面对范围的大数据“沾边”也不为过·
CDO(首席数据官)之我见
CDO概念最初由国外提出,并且目前阿里巴巴已经任命了“首席数据官”这一职位。那么CDO会像CTO、CIO等那样普及开来吗·哪些企业需要设立CDO呢·
退回到2009年,笔者刚开始了解到CIO(首席信息官)这个称号。没错我以前真的不知道,经常与厂商市场营销部门和媒体打交道的人应该都不会陌生。但仔细想一下,我们能记住Intel、IBM、微软等知名厂商的CIO是谁吗·他们会像CIO、CTO那样公开发表言论吗·基本不会吧。信息化这个词感觉更好理解些,许多企业都需要不同程度地倚重这个IT管理部门,但我们除了在与那些CIO相关的供应商组织的会议之外,他们在日常工作中也会被称为CIO吗·
“首席信息官”中的信息,从字面意义上理解与IT建设似乎并不能画等号·在今天的大数据时代,已经有人提出“将数据变为有价值的信息”这个口号,那么对于负责实现企业中数据价值的leader而言,如果不是因为已经有了其它用途,“CIO”一词是否比CDO更为合适呢·如果只是单纯地负责存储设备上的数据,那与存储管理员又有多大区别·在大数据这个词流行之前,也有人从事数据挖掘、分析工作,将他们的职位归为某个业务部门,与现在部分人称之为CDO又有什么本质上的不同呢·
可能有人觉得笔者在这里给大数据和CDO这些概念“泼凉水”,其实我的初衷只是希望大家能够更加客观、冷静地看待大数据、相关技术和业务方式的变化,以及每个厂商口中的大数据有什么不同。
最后,让我们来换一个角度。如果说大数据、CDO这些新名词对用户的实际意义不大·或者说只是换了一个新的说法(概念)的话,但不等于它们对厂商的宣传和媒体而言也没有意义。毕竟市场需要造势,吸引关注需要“噱头”,产品技术也需要各种包装,才能被人们更好地理解认识,而不是冷冰冰地放在那里。