解读大数据和CDO：概念大过实际意义？

来源 :网络与信息 | 被引量 : 0次 | 上传用户：ouyang

【摘要】

：

【作者】

：

比特网黄亮

【出处】

：

网络与信息

【发表日期】

：

2012年9期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　就在去年刮过云计算之风，其中部分“泡沫”已经破裂，人们的关注度有些下降之后。大数据这个概念又被一些厂商“利用”为宣传利器，EMC作为其中的代表从去年EMC World 2011大会就开始发动了攻势。
　　可能是由于工作经历的缘故，笔者对云计算、大数据，包括由后者而提出的CDO（首席数据官）这些新的热点话题，其中偏概念而非具体技术的部分，在一段时间内持谨慎旁观的态度。从用户的需求来看，真的是“老同志遇到新问题”了吗·当然IT技术、应用模式的发展，对业务不断提出了新的要求。海量增长的非结构化、半结构化数据中确实有值得挖掘的价值，但这并不等于人们就要一下子更换全新的方法、工具来处理它们。就像需求是渐进式的增长一样，业务的变革也是渐进式的。
　　在《纪录中国——企业存储的自主之路》一文中，笔者曾经谈到了一些国内存储品牌自主的研发理想和OEM转销的现实。而本文我想以部分厂商为代表，“批判”或者说“揭露”对大数据宣传背后的实质内容。其中可能不完全是肯定的，总之希望读者能够更全面、客观的看待大数据这个概念。当然，我的评论中也可能会有不当之处，欢迎大家提出不同意见，批评指正。
　　大数据世界论坛：2011和2012的不同
　　首先，我想提一下去年和今年在北京举行的大数据世界论坛（BIG DATA World Forum）。个人感觉今年参与（赞助）的厂商没有去年多，也相对缺乏有新意的话题。
　　退出的几家厂商大致包括：比如说Teradata（天睿），去年他们谈的数据仓库；IBM Netezza的资深专家去年发表了精彩的演讲，他们的产品也属于一种新型的数据仓库，与Teradata的通用x86硬件相比增添了FPGA（现场可编程门阵列）芯片来加快数据从存储中调出的筛选速度；SAP去年还不否认他们的HANA内存计算方案属于“大数据”，而今年就开始宣称“大数据是个谎言”——传统列式数据库就能很好地处理大数据。
　　还有EMC。这里倒不是说EMC不再重视大数据，而是就Greenplum核心产品线本身而言并没有太多的变化——仍然分为Greenplum Database（数据仓库）、Greenplum HD（Hadoop分析）和Greenplum DCA（数据计算设备），后者还是基于高性价比的工业标准x86服务器的MPP（大规模并行处理）分布式可扩展架构。站在厂商的角度，如果没有更多的新鲜东西，过多的投入资源来重复宣传显然不划算。因此EMC将其Atmos云存储（对象存储）、Isilon集群NAS都囊括在大数据的概念下，当然也有技术方面的努力，比如Isilon对HDFS（Hadoop文件系统）的支持，但其实用价值有多大就是个见仁见智的问题了。
　　EMC Greenplum在与数据打交道的各种用户之间又加入了一个“Chorus－分析生产力层”。也就是说Chorus是处于Greenplum结构化/非结构化数据平台和用户分析应用之间的衔接部分。
　　至于SAP的策略转变，估计和他们的产品有一定的独特性有关，适合的应用场景也与众多基于Hadoop开源方案的产品有着较大的不同。因此SAP可能觉得与“那些人”站在同一条起跑线上有些吃亏·索性就干脆划清界限——“我有成熟的Sybase数据库，而且它能够满足当今用户的需求。”
　　前面提到的都不是什么新闻了，而且这几家厂商（或者被收购的业务部门）都是做数据库或者数据仓库出身的，相对而言与大数据的关系还比较紧密一些。接下来笔者想就最近发生的一些事件，几家看似与大数据不相关的IT厂商推出的策略，发表些简单的观点。
　　VMware：让Hadoop运行在虚拟机上·
　　应该说这种应用方式不是最近才提出的，而上周三（8月8日）在北京举行的“VMware & EMC大数据云高峰论坛”让我们重新思考一个问题。随着EMC和VMware高层一系列变动日期的临近，Cloud Foundry将要与Greenplum等业务重新组合在一起，也就是云（PaaS）和大数据（数据仓库+分析）的联合·
　　“让Hadoop运行在虚拟机上，VMware号称性能下降在10%以内，在某些情况下，用虚拟机运行Hadoop的性能甚至能够超过物理机·”
　　谈到性能，这就像EMC表示其存储在虚拟化环境下运行一些关键应用的效率高于物理机一样。这其实只代表EMC存储对VMware的支持好，因为对应的那几种应用性能瓶颈都是在存储而不是计算上。单纯就x86服务器而言，虚拟化Hypervisor做得再好也不可能提供超出物理资源的性能啊。
　　我们再来看看EMC官方的说法。
　　虚拟化对Hadoop的四大促进作用：第一、让Hadoop适用于多租户环境，因为不同部门可能都需要各自的Hadoop集群。第二、提高Hadoop的安全性，VMware虚拟化在不同集群之间产生强隔离。第三、提高Hadoop的可伸缩性，使得它很容易进行伸缩加减节点。最后一点当然是增加CPU的利用率。
　　而有业内人士发表了不同的观点：
　　“除了部署灵活性之外，在性能、安全性、资源利用率方面均不具备优势，在部署方面有人说虚拟机多么好，但是我并不觉得如此，Hadoop的部署很简单，如果部署HA，则可以考虑采用大云的自动化HA方案。
　　但是如果你的数据已经在（Amazon）S3上面，则不得不使用虚拟机了，无论是EMR，还是自己搭建。”
　　也就是说，虚拟化是Hadoop与云计算结合的一个点。虚拟化的隔离做得再好也是在一台物理机内部的隔离，而Hadoop常规的集群部署则是物理上的隔离；像服务器虚拟化那样提高CPU利用率是个好想法，评价Hadoop应用的资源过剩还是瓶颈不一定是由CPU决定的，有可能是各节点的存储（HDFS）。EMC的想法是将数据放在Isilon或者VNX集中存储上·但这样做没有成本优势。
　　另有一位业内朋友表示：
　　“本来HDFS都是架设在datanode（数据节点）的本地硬盘上的，现在又要通过网络再输出到共享硬盘上，网络的压力更大了，虚拟机环境的瓶颈本来就在存储和网络上，而且这样其实违背了Google的让计算离数据更近的初衷，个人不是很看好Hadoop架设在虚机上的效率。” 　　Intel为什么也要玩Hadoop·
　　今年，Intel也把企业数据中心的市场宣传重点转移到大数据，其中也包括他们自己搞的Hadoop发行版。有些人不禁要问：Intel的核心业务不是在CPU上面吗·（笔者在“大数据时代：Intel Xeon、LSI SAS术业有专攻”一文中有过相关讨论）
　　确实，Intel给人的感觉不是一家软件公司。包括Xeon（至强）处理器在内的服务器平台产品线，于x86阵营中已经处于绝对的优势（AMD的份额已经基本没有威胁），即使面对RISC阵营也在不断蚕食后者（包括Itanium）的市场空间。那么Intel需要寻找新的增长点，在整个行业几乎都在喊云计算和大数据的情况下，能够免俗的人不多。
　　上图资料来自Intel，仅供参考
　　不知道有多少人了解，Intel的软件部门还有着上万名员工。曾经有同行表示：AMD相对Intel的一大软肋就是他们的软件优化能力不足。从C++、Fortran编译器，到如今充分发挥多核/多线程能力的Parallel Studio，Intel在处理器相关软件生态环境上的努力和收获都是看得见的。
　　一位在国内某大型互联网行业用户工作的朋友曾对笔者说，他们采用过AMD和Intel CPU的服务器，但后来用AMD就少了。因为他们体会到，购买相应平台的硬件，Intel还会帮助进行软件上的调优等支持工作。当然这个的前提应该是用户达到一定的采购规模。
　　所以说，尽管Intel在Hadoop方面的起步不一定很早，相关技术也不见得比本文前面提到的几个厂商搞得更好·但以Intel在行业内的影响力，还是会有人响应并且不能小看，就像他们面向企业存储市场的SSD（固态硬盘）910、710那样。
　　CommVault：大数据就是保留和归档·
　　CommVault这家在前几年发展迅速的存储软件公司，称自己的Simpana产品为数据管理一体化软件。为了便于大家的理解，我还是习惯于将其归类为数据保护软件，或者说有备份、CDP、归档等功能模块。如今我们看到CommVault也在谈大数据，并提到未来的Simpana 10新版本，以及分析功能。那么，此“大数据”等于彼“大数据”吗·CommVault也要搞像Hadoop那样的数据挖掘、分析吗·
　　尽管对此没有做较多的调研，但以笔者对这家存储软件厂商的了解，CommVault应该还是专注于自己擅长的细分领域，其功能还是围绕着数据管理和保护概念下的备份、归档等。所谓的“分析”功能有可能是类似于笔者曾经介绍过的惠普Data Protector 7软件，采用收购自Autonomy的IDOL（智能数据操作层）技术“基于语义的保护”，实现在备份的索引中，根据关键字或者其它参数来搜索想要恢复数据的功能。
　　既然人们可以将Autonomy视为大数据厂商，那么CommVault如果有类似IDOL那样便于数据查找、恢复的技术，说他们与超出传统备份软件厂商面对范围的大数据“沾边”也不为过·
　　CDO（首席数据官）之我见
　　CDO概念最初由国外提出，并且目前阿里巴巴已经任命了“首席数据官”这一职位。那么CDO会像CTO、CIO等那样普及开来吗·哪些企业需要设立CDO呢·
　　退回到2009年，笔者刚开始了解到CIO（首席信息官）这个称号。没错我以前真的不知道，经常与厂商市场营销部门和媒体打交道的人应该都不会陌生。但仔细想一下，我们能记住Intel、IBM、微软等知名厂商的CIO是谁吗·他们会像CIO、CTO那样公开发表言论吗·基本不会吧。信息化这个词感觉更好理解些，许多企业都需要不同程度地倚重这个IT管理部门，但我们除了在与那些CIO相关的供应商组织的会议之外，他们在日常工作中也会被称为CIO吗·
　　“首席信息官”中的信息，从字面意义上理解与IT建设似乎并不能画等号·在今天的大数据时代，已经有人提出“将数据变为有价值的信息”这个口号，那么对于负责实现企业中数据价值的leader而言，如果不是因为已经有了其它用途，“CIO”一词是否比CDO更为合适呢·如果只是单纯地负责存储设备上的数据，那与存储管理员又有多大区别·在大数据这个词流行之前，也有人从事数据挖掘、分析工作，将他们的职位归为某个业务部门，与现在部分人称之为CDO又有什么本质上的不同呢·
　　可能有人觉得笔者在这里给大数据和CDO这些概念“泼凉水”，其实我的初衷只是希望大家能够更加客观、冷静地看待大数据、相关技术和业务方式的变化，以及每个厂商口中的大数据有什么不同。
　　最后，让我们来换一个角度。如果说大数据、CDO这些新名词对用户的实际意义不大·或者说只是换了一个新的说法（概念）的话，但不等于它们对厂商的宣传和媒体而言也没有意义。毕竟市场需要造势，吸引关注需要“噱头”，产品技术也需要各种包装，才能被人们更好地理解认识，而不是冷冰冰地放在那里。

其他文献

高校图书馆网站的信息资源建设

摘要：随着信息资源的网络化，高校图书馆网站的信息资源建设逐渐成为图书馆建设的重要内容，本文通过完善页面设计、优化搜索引擎、为广大师生提供个性化服务、加强网站的日常更新维护这四个方面来加强高校图书馆网站的信息资源建设，使高校图书馆充分发挥其信息职能和教育辅助职能，成为信息资源和读者之间的联系纽带。　　关键词：图书馆信息资源信息服务　　　　网络环境为人们提供了极为丰富的信息资源基础,并逐步成为人

期刊

利用多媒体技术优化生物课堂教学结构初探

信息技术的飞速发展，笔者对生物课堂教学结构变革中实施多媒体技术与生物教学的整合，优化生物课堂教学结构作了一些有意义的探索。　　一、改变教学观念，根据生物教学的目标和要求设计合理的媒体使用方案　　多媒体技术是实现高中生物新课程教学目标和要求的重要手段，不应只体现生物教学中视、听和色彩的刺激而模糊了生物教学的目标与要求。对于生物新课程的教学要努力做到“面向日新月異的社会”，“面向瞬息万变的世界”，“面

期刊

文化教学中由图示理论提高阅读能力

摘要：英語阅读教学水平在提高英语教学质量上起到了关键作用。在阅读教学中，为了提高教学水平，外语教师应当丰富自己的教学方法，提升教学能力已获得较好的教学效果。本文涉及为什么要在阅读教学中强化文化教学的原因，什么内容应当被融入到课堂中去以及如何在阅读加入文化背景教学。重点是在不同的阅读阶段，采用不同的文化教学方法。　　关键词：文化图示阅读理解背景知识　　Abstract：Teaching of

期刊

利用CAD/CAM软件辅助模具专业课教学

随着国家中等职业教育越来越重视，全国不少省份已将推行新课改。本人认为，新课改不仅是教材的改革，同时也是教法的改革。本人结合自己对模具各专业课的了解情况，认为可以将CAD/CAM软件与机械制图、模具结构、数控加工结合起来教学。　　一、CAD/CAM软件在机械制图教学中的应用　　传统的机械制图教学手段一般采用黑板、实物模型、挂图等方式。传统方法课堂准备时间长，信息量少，实物模型不容易跟平面投影联系起

期刊

计算机辅助测试变革从培训开始

摘要：计算机辅助测试的革命应先从普通话水平测试的培训开始，本文侧重谈感受，从受测对象的心理特点、培训方式的变革、培训教师素质的提高三个角度入手，讨论了机辅测试的优势和测前培训的重要性。　　主题词：普通话计算机辅助变革　　　　普通话水平测试是推广普通话的重要部分,是使国家有关政策落到实处,使推普工作逐步走向科学化、规范化、制度化的重要举措。当今我们已处于一个迅速发展的信息化、网络化的时代，在普

期刊

有线数字电视用户管理系统(SMS)前台交互模块组件互访浅析

摘要：本文通过对有线电视用户管理系统（SMS）国内众多软件编程概况介绍及对该系统的功能分析，提出了解决有线数字电视用户管理系统（SMS）前台交互模块组件互访的途径。　　关键词：有线数字电视用户管理系统前台交换模块组件　　　　有线数字电视服务平台由技术实现系统和运营支撑系统构成。技术实现系统是实现广播电视节目、信息服务等各种业务所必需的软硬件系统，例如编解码、复用、调制等系统。运营支撑系统是保证

期刊

多媒体教学之我见

摘要：在信息化的今天，多媒体教学已经成为教师必备的基本功，本文介绍了多媒体技术在教学中的重要作用，探讨了如何正确运用多媒体提高教学质量。　　关键词：多媒体教学教师　　近年来，随着多媒体技术的发展，多媒体辅助教学已经成为很多教师必不可少的工具，利用计算机将文本、声音、图像、动画、视频等多媒体资源综合利用，可以大大提高教学质量和教学效率，优化课堂教学效果。本文结合笔者的理解谈谈对多媒体教学的看法

期刊

试论数字音乐及在线音乐的商业模式

摘要：数字音乐早已经悄然渗到我们的生活之中，潜藏着巨大的发展机遇，同时也面临着瓶颈因素的制约。数量庞大的潜在音乐受众群体，无疑为中国数字音乐市场带来了巨大的发展空间。因此，中国数字音乐产业的当务之急是顺应时代发展潮流，确立正确的发展路径，以期实现这一新兴产业的持续健康发展。　　关键词：数字音乐在线音乐模式　　　　数字音乐按照基本的定义来讲，它就是用数字格式存储的，可以通过互联网和无线网络来传

期刊

多渠道培养大学生信息素养

摘要：在网络技术迅猛发展的当今社会，大学生面对浩如烟海信息，往往体现出信息意识淡薄、信息道德失范、信息能力低等现象。文章以信息技术教育为基础，以信息能力、信息伦理道德和创新能力的培养为核心，通过确保高校专业教师“信息化”、增开信息素养系列公共必修课、利用高校图书馆进行信息素养教育等渠道论述了大学生应提高信息的重要性的方法。　　关键词：信息素养高校图书馆课堂教育信息课程　　　　随着信息技术

期刊

有效运用畅通、高速、化繁为简的工作平台

互联网发展的日益繁盛与广泛应用，给人们的生活、工作带来无限便捷与高速。因此，在互联网的影响下信息化彰显出其独特的魅力与优势，而信息化建设与实施便在各个领域应运而生。将信息化有效实施于企业实际工作中，便会为传统的工作方式提供一种畅通、高速、化繁为简的工作平台，进而必将对企业运营效率产生深远的影响。　　1 信息化在企业中的价值　　企业不断发展壮大，依托于许多内在、外在因素。只有在内外兼修的情况下，才会

期刊

解读大数据和CDO：概念大过实际意义？

与本文相关的学术论文