大数据悖论

来源 :中国计算机报 | 被引量 : 0次 | 上传用户:luo_yu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  大数据已被提升到国家战略高度。美国启动了“大数据研究和发展计划”,动用美国国家科学基金、国家卫生研究院、能源部、国防部、国防部高级研究计划局和美国地质勘探局等6个联邦政府部门的资源,大力推动大数据相关收集、组织和分析工具及技术的研发,致力于开放型、共享型政府建设。
  大数据已被定义为科学探索的第四范式。继几千年前的实验科学、数百年前的理论科学和数十年前的计算科学之后,当今的数据爆炸孕育了数据密集型科学,将理论、实验和计算仿真等范式统一起来。大数据已被誉为“非竞争性”生产要素。
  大数据具有“取之不尽,用之不竭”的特性,在不断的再利用、重组和扩展中持续释放其潜在价值,在广泛的公开、共享中不断创造着新的财富。
  然而,大数据的3V特征也好,4V特征也罢,仍然没有撇清与海量数据、超大规模数据的关系;为数不多的应用案例,依然难逃传统数据分析和数据挖掘的嫌疑;大数据的实时分析、产品的关联度分析,很难抹去精准营销、精益管理的传统思维定式。这更像是一种“新瓶装旧酒”的困局,一种“唐·吉诃德式”的悖论——越是强调大数据的实践应用,就越扼杀大数据的潜在价值。
  为何如此?根源在于,大数据的价值在于预测未知领域、非特定因素的未来趋势,在于破解长期的、普遍的社会难题。而目前的大数据技术和应用,依然局限于历史和实时数据的关联分析,局限于满足短线的、特定的市场需求。
  “解决我,不然我将吞掉你的体系”。正如当年罗素悖论试图颠覆现代数据基础——集合论一样,破解社会难题与苟安于市场需求的悖论正在向大数据宣战。解决悖论的过程,恰恰是理论和方法应运而生的过程。而人们试图解决悖论的努力,正好是大数据落地生根的推动力。
  方法论缺位
  大数据与海量数据、超大规模数据有何不同?如何跨越学术与产业、技术与应用的鸿沟?
  自2008年《自然》杂志推出“大数据”专刊以来,大数据概念就从学术大讨论,转向了企业的数字化转型,进而上升到“开放政府数据”的战略布局。然而,单纯的数量上的规模庞大,并不能轻易地将大数据与以往的“海量数据”、“超大规模数据”等区别开,因为三者均没有设置数量级等门槛。
  概念的模糊,没有影响到大数据概念的炒作,却着实影响到了大数据应用的推广。IBM对全球95个国家和地区、26个行业的144名业务人员或IT专业人士做了调研,该调研发现,大多数企业已经认识到大数据的决策价值和业务优化的潜能,但是他们对布局企业数据战略却束手无策,甚至多数企业不确定如何推进大数据应用。这一现象可以归因于企业管理者对于大规模投资大数据和高级分析工具,特别是对数据科学家等人才的需求,表示怀疑。因为他们还没有认识到从哪里获取数据,一些企业还没有抹去数据仓库与业务无法融合的阴影。
  老生常谈的大数据3V或4V特征,更是让CEO们望而生畏。“大数据是指利用广泛信息源来推动实时决策的做法。”哈佛商学院客座教授托马斯·达文波特在接受媒体采访时的阐述可能曾让企业家们怦然心动,但他接下来的解释却与IT企业的说辞没太大区别。在达文波特看来,大数据的特征可以用3个’V’来描述:数量(Volume,大量数据)、速度(Velocity,数据变化很快)以及多样性(Variety,数据源内部的和外部的,系统的和散乱的)。有时还有第4个V:真实性(Veracity,反映数据质量)。加上IDC和Teradata给出的另一个V——价值性(Value,数据的使用价值和潜在价值),这些概念和定义均没有回答大数据与业务融合的问题。
  方法论缺位是最大的障碍。大数据发展的核心动力源于人们测量、记录和分析世界的渴望,满足这些渴望需要数据、技术和思维三大要素。在计算技术、通信技术日益成熟的今天,在廉价的、便捷的数字化存储普及的当下,数据无处不在,技术正以标准化、商品化的方式提供,事实上思维和方法论才是决定大数据成败的关键。但目前来看,跨越学术与产业、技术与应用之间鸿沟的方法论依然不完善,以至于被大数据畅销书和大数据技术服务公司反复借用的大数据应用案例,均是一些蹩脚的例证。
  “运用大数据做决策的那些行业前三名企业,比其竞争对手在产能上高5%,在利润上高6%。”这是麻省理工学院的数字商业中心最近完成的一个调查的数据。该调研还发现:越是自定义为数据驱动型的公司,越会客观地衡量公司的财务与运营结果。
  的确,被誉为大数据应用楷模的谷歌、亚马逊等数据型公司在2013年第一季度确实取得了不俗的业绩。其中谷歌营业收入增长了31%,亚马逊增长了22%。但是,一些大数据技术和解决方案服务的公司并没有取得如此的业绩。比如IBM第一季度营业收入下滑5.1%,净利润下滑1.1%;微软第一季度营业收入下滑8%,净利润下滑22%;英特尔营业收入下滑2%,利润下滑25%。
  “几家欢乐几家愁”的业绩表现,与大数据有关还是无关呢?这与大数据预测是否精准的问题同样难以回答。学术界、企业界都不会质疑大数据的预测功能。《大数据时代》一书的作者维克托·迈尔-舍恩伯格说,大数据的核心就是预测。它通常被视为人工智能的一部分,或者更确切地说,被视为一种机器学习。他认为,大数据大大解放了人们的分析能力。一是可以分析更多的数据,甚至是相关的所有数据,而不再依赖于随机抽样;二是研究数据如此之多,以至于我们不再热衷于追求精确度;三是不必拘泥于对因果关系的探究,而可以在相关关系中发现大数据的潜在价值。因此,当人们可以放弃寻找因果关系的传统偏好,开始挖掘相关关系的好处时,一个用数据预测的时代才会到来。
  遗憾的是,无论是IBM的大数据接受程度调研,还是麻省理工学院的大数据战略效果评估,都是传统的随机抽样,甚至是结构性访谈,而非大数据的全体数据、模糊数据采集。被广泛引用的谷歌预测H1N1流感传播轨迹、沃尔玛将啤酒和尿布摆放在一起的故事,无非是产品和词汇的关联性分析。同样,《少数派报告》讲述的华盛顿特区警局预测犯罪的故事,也不过是电影的情节,而且与“无罪推定”、“犯罪的四个要件(犯罪主体、犯罪的主观方面、犯罪的客观方面、犯罪客体)”等常识相悖。   马克·吐温说:历史不会重演,但自有其规律。技术的进步让人类揭示历史规律更加便捷和更有可能,大数据技术的进步就是其中之一。因此,与其说大数据的核心价值是对未来的预测,不如说是对过去沉睡的规律的揭示。在“自证预言”等复杂因素的作用下,大数据对社会的一些预测和判断,很可能到后来只是“事实证明”。
  数据之于信息社会就如燃料之于工业革命,是人们进行创新的力量源泉。没有大量鲜活的数据和健全的服务市场,这些创新就实现不了。这是维克托·迈尔-舍恩伯格的观点。一些学者更进一步,将大数据视作第三次工业革命的战略资源。
  不可否认,大数据标志着人类在寻求量化和认识世界的道路上前进了一步。这是计算技术的进步,是人类决策工具的进步。但正如《哈佛商业评论》所批评的:“高管们明明还是按照传统的方式做决定,以那些高薪人士的意见为主,却拿出一份香艳的数据报告证明自己的决定是多么英明。其实那不过是吩咐下属四处寻找的专为这个决定做辩护的一堆数字。”这些所谓的“伪大数据决策”也许是一种常态,“高价智囊请闭嘴”、“让数据做主”很可能只是大数据倡导者的理想。
  《点球成金》的故事经常被大数据概念的倡导者拿来佐证“专家的消亡和数据科学家的崛起”。改编自迈克尔·刘易斯的《魔球:逆境中制胜的智慧》的影片《点球成金》,讲述了一个真实的故事,介绍了奥克兰运动家棒球队总经理比利·比恩的经营哲学,描述了他抛弃几百年延续的选择球员的惯常做法,采用了一种依靠电脑程序和数学模型分析比赛数据来选择球员的方法。比利·比恩的成功称得上是对球探们经验决策的颠覆,是让数据说话的成功范例。但是,其所分析的数据根本称不上大数据,甚至连海量数据也够不上。比利·比恩成功的关键不在于“让数据说话”,而是为“球队为赢球而建,不是为球星而建”的经营常识找到了数据注脚。
  正如维克托·迈尔-舍恩伯格将大数据视为人工智能的一部分,视为机器学习的一种应用一样,数据决策和数据旁证的博弈其实是人和机器的博弈。熟稔经营之道的企业家们并不情愿轻易将决策权交给大数据、放任服务器。而且,数据有时候也可能是企业管理的“绊脚石”。
  直觉主义让位于数据分析,专家决策让位于群众智慧,只能是大数据倡导者的一厢情愿。一个折中的办法是,数据做分析,专家做判断,数据给答案,专家做选择。但对企业家而言,专家可以找,思想家必须自己做。从数据战略的构建,到群体智慧的萃取;从社会关系网络的解析,到复杂的自组织系统的发现,均依赖于企业家的智慧,而不能完全依赖于机器。即便是有一将难求的数据科学家的协助,大数据决策依然是辅助系统。
  “只要有电器的地方,他都不敢开会。”有媒体用这句话夸张地描述梁稳根和他的三一重工在长沙的窘境。然而,在基于社交媒体和数字化记忆的大数据时代,人们不仅担心无处不在的“第三只眼”,而且担心隐私被二次利用。因为,亚马逊监视着我们的购物习惯,谷歌监视着我们的网页浏览习惯,微博似乎什么都知道,包括我们的社交关系网……
  可怕的不是这些隐私数据,而是大数据的全数据分析、模糊计算和重关联却不求因果的特性,让隐私数据与社交网络等关联起来。按照维克托·迈尔-舍恩伯格的说法,危险不再是隐私的泄漏,而是被预知的可能性——这些能够预测我们可能生病、拖欠还款和犯罪的算法会让我们无法购买保险,无法贷款,甚至实施犯罪前就被预先逮捕。
  面对大数据对隐私的疯狂挖掘,传统的隐私保护手段——告知与许可、模糊化和匿名化——几乎无一奏效。维克托·迈尔-舍恩伯格给出了理论上的解决方法,即个人隐私保护从个人许可转向让数据使用者承担责任,在使用预测分析时考虑个人动因以及催生大数据审计员。其实就是说坚持“对行为而非动机”负责的原则。
  比个人隐私和企业商业机密更复杂的是数据产权的模糊。一方面,大数据能够透过对公开数据的处理分析释放出无限能量,发现其背后的潜在价值;另一方面大数据的频繁重组、聚类创造着新的财富,并通过相关关系关联到社会关系网络。然而,数据的原始所有权和价值使用权、收益权消融在复杂的网络之中。大数据倡导者将其定义为“非竞争性”资源。不同于物质性资源,大数据的价值不会随着它的被使用而减少,而是可以不断被处理,不断被发现新的价值。这意味着大数据的全部价值远远大于其最初的使用价值,大数据应用的精髓就在于不断发现其潜在价值。
  大数据产权和收益权的问题随之产生。“伴随着互联网成长起来的新一代,习惯于对创造力、知识、专业技能,甚至产品和服务的开放性共享,以促进社会总体财富的增长。”《第三次工业革命》一书的作者杰里夫·里夫金的这种解释,也许是对大数据产权问题的一种回答,即交给“共享型经济”来解决。正如云计算奠定了大数据的技术基础、大数据释放了云计算的商业价值一样,共享型经济有可能铺就大数据的社会基础,而大数据则有望确立共享型经济的合法地位。
  无论如何,大数据正在推动产权认知和结构的变革,以往IT产业链的主宰者或将在变革中遭遇冲击。
  大数据的魅力在于它能够让企业在无边界的数据海洋里遨游,发现社会进步的内在韵律,捕捉社会发展的先行参数。比如从消费者兴趣图谱中萃取研发创新智慧,而不局限于产品关联性分析;比如对企业内外部利益相关者群体智慧的发掘,开展企业和产业的健康诊断,而不局限于短效的精益管理;比如对地震等自然灾害的预警,构架社会应急机制……
  一言以蔽之,就像云计算不是卖服务器一样,大数据不是卖数据或咨询报告。如果说云计算遵循SaaS(软件即服务)、PaaS(平台即服务)和IaaS(基础设施即服务)的模式,而大数据将云计算引向AaaS(分析即服务)的阶段。在这一阶段,云计算是基础设施,大数据是服务工具,两者将满足特定语境下的、短线的市场需求,更重要的是它们还能发挥其在非特定语境下破解社会难题的价值。
  换言之,大数据将演绎“信息转化为数据,数据集聚成知识,知识涌现出智慧”的进程。按照哈耶克在《自由宪章》一书中对人类知识增长和进步的论述,大数据应该是一个人类知识增长的复杂过程。首先大数据原本并不以具有明确的目标和对象为出发点,而是在不断收集、重组和聚类中,发现社会发展的先行参数和相关关系。其次,大数据在社会难题中的应用不仅没有设定的目标,也没有设定的问题,能发现什么启示是自然形成的结果。再次大数据发现的结果往往超出既有的思维和判断,往往不能为社会所接受,检验其预测的准确与否。
  但是,满足市场需求的大数据应用模式,有利于技术和数据公司将既有的资源和能力转化为商品,有利于这些企业寻找到以客户需求和盈利模式为支撑的商业模式。而对于大数据应用者而言,数据的聚类和多次利用,也有利于实现跨部门、跨行业等跨界融合,有利于实现企业和产业的开放式创新。而致力于破解社会难题的大数据应用,却很难在短期内找到盈利模式。
  满足市场需求与破解社会难题的悖论,与弗里·摩尔的高科技营销模型不谋而合:企业不难从技术概念跨越到早期应用市场,却容易在高速增长的主流市场阶段“陈发式”灭亡,成为“鸿沟里的牺牲者”。
其他文献
1月29日,住房和城乡建设部门公布头批90个国家智慧城市试点名单,大力推动智慧城市创建。这对入选城市的科技和经济发展将起到巨大的推动作用,同时,对以科技创新、绿色节能、提倡可持续发展的国内诸多企业来讲,这将成为一次一展拳脚的宝贵机会。早在2012年,国内“智慧电能领导者” 厦门科华恒盛股份有限公司(以下简称科华恒盛)即已通过参与智慧交通、智能电网、电子政务平台构建,在头批试点智慧城市中抢占先机。而
IDC最新发布的数据显示,国内彩色激光打印机销售量连续三年取得两位数的增长。虽然目前国内彩色激光打印机占整个激光打印机市场的比例仅为8%,与欧美成熟市场的70%占比相距很大,但是这也证明国内激光打印机市场潜力巨大。  佳能正是看到了彩色化这一未来发展的方向,加强了对彩色激光打印机的投入。近日佳能就发布了5S彩色激光一体机产品,为用户提供了五大智能(5 Smart)应用,除了进一步强化过去产品已有的
ThinkPad推出S系列的全新升级产品—— ThinkPad S3/S5浮游超极本。ThinkPad S3/S5创新地采用浮游式设计理念,将整机前端削薄至10mm,将纤薄推向极致,创造视觉上的轻薄飘浮感,并首次采用全铝材质打造,有陨石银及寰宇黑双色供选择。全新的S系列浮游超极本配备AMD Radeon HD8670显卡,实现高清画质和Windows 8的加速视听体验。ThinkPad S3采用1
亚马逊旗下的个人云存储业务CloudDriver低调入华,支撑其中国云存储业务的数据中心也在廊坊悄然落成。这位云计算巨头对中国的青睐是否暗示中国云存储市场的机遇已趋于成熟?国外云服务商的介入,能否对蹒跚学步的本土服务商造成致命威胁?对于云存储市场的玩法,你了解多少?谁是云存储业务的“最佳”用户?云存储时代的到来,将对传统存储市场的生态圈带来怎样的影响?这些问题本文将一一揭晓答案。  亚马逊的动向一
爱普生EB-CS500系列交互式短焦投影机  过去,人们通常认为交互式投影机只用在教学当中,但是实际上,随着商业发展,在日常的商业活动中,需要交互式投影机的场合越来越多。比如,在公司内部的讨论会上、在给客户介绍方案时等。交互式投影机省去了过去需要单独配置昂贵的交互式白板,只需要一台投影机和一块白幕即可实现交互投影,如果公司的墙面是白色的,甚至可以直接投影到墙上。  为了顺应商用投影交互化这一潮流,
准备阶段,管理到位  一是企业得到了规范持续的发展,  二是一把手高度重视,深度参予,  三是企业卓越绩效的导入,各业务  线管理标准化推进有序。  规划阶段,技术到位  一是中建五局的信息化以服务企业  发展战略为中心,  二是全局信息化总体规划、集约管  控、集成应用、务求实效,  三是全局统一平台、集中部署。  建设阶段,思路到位  一是首先搭建集成平台,  二是梳理主数据,  三是制定信息
北京中大科慧科技发展有限公司是国内领先的数据中心电能管理设备提供商、信息安全服务商和IT运维管理解决方案提供商。公司致力于打造全方位的数据中心综合治理平台,为企业的运营提供安全、高效的数据中心安全管理平台。  致力于数据中心管理提升  中大科慧成立于2000年,是专业从事数据中心领域技术研究的高新技术企业。公司是中国电子工程协会会员、中国电源学会理事单位。  中大科慧先后成立了3个技术研发中心,为
世界500强英国标准人寿保险公司在二战前就在上海设有办事处,并长期在中国开展保险业务。由英国标准人寿与天津泰达集团合资成立的恒安标准人寿公司(简称恒安标准人寿)于2003年成立,从规模来看,在中国的外资保险机构中排名第八。目前,恒安标准人寿的总资产约60亿元,有效客户30万左右,数据总量4~5TB。恒安标准人寿信息技术部IT总经理刘欣在采访中一直自谦说恒安标准人寿是一个小公司,但就是这样一个小公司
2013年,企业邮箱行业可谓硝烟弥漫,各大行业巨头纷纷寻求改革之路。处于行业领先地位的21CN企业邮箱也展现的“锐意创新”的改革思路,全面深化了与中国电信在IDC、手机通信及云资源等方面的融合,站在巨人的肩膀上,以“中国电信企业邮箱”的品牌姿态重新踏上征途。“我们通过提供电信级的系统安全服务、企业级的金牌客户服务来做中国最专业的企业邮箱。”中国电信企业邮箱凭借务实的发展作风,优质的产品及良好的口碑
大量大数据相关的产品陆续推向市场,与大数据相关的各种论坛轮番召开,很多CIO将大数据分析作为信息化建设的一个重点……大数据分析是2012全球IT市场的一大热点。  大数据在2012年备受关注,主要是由需求和技术两方面因素所决定的。在需求方面,一方面是因为企业在经过一段时期的信息化建设后,积累了大量的数据资产,迫切需要让这些数据产生价值。另一个方面,海量非结构化数据随着社交网络、移动应用的普及而产生