Big Data

来源 :第一财经周刊 | 被引量 : 0次 | 上传用户:ganmaogaishilangren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  Robin走进纽约Maidson大街99号17层时,像个异类。他有可能也叫Roby,反正他没带名片。他迟疑地看着里面端着酒杯彼此交谈的年轻人,而自己头发花白。好在他看到了投影仪的幕布上硕大的字样:“Big Data”(大数据)。
  他已和数字打了20年交道,不过是在金融行业。采集数据、建立模型、预测价格的走向,这是他每天都在做的事。“我不喜欢这份工作,这些数据是冷冰冰的,当你处理完这些数据后,你没有成就感。”他说,“我想要做些改变,去面对那些更加活生生的、有趣的数据。”所以他来了这个由咨询公司Dalberg组织的讨论会。
  他说的那些活生生的、有趣的数据来自于社交网络—Twitter、Facebook、Foursquare以及不断新冒出来的新应用。在Twitter和Facebook刚出现时,鲜有人知道除了吐槽炫耀自恋外这些碎碎念有什么用,但现在这些被称为数据,是价值尚未发掘完全的资源。
  尽管在过去的几十年里,像Robin这样的程序员和数学家不断在和数据打交道,但是SoLoMo(Social、Location、Mobile)带来的海量数据依然是个新挑战—在一分钟内,Twitter上新发的信息数超过10万;在Facebook上有超过600万的浏览量。而且和单纯的数字不同,这些数据是含义丰富的文字,以及比文字更复杂的图片、音频和视频。
  实际处理起来,这并不比金融行业中的数据更加有趣。Robin想要离开的真正原因可能是华尔街的萧条。再多的统计数据与模型也不能防止整个经济的下滑和小概率事件发生带来的股灾,无数人正在失去华尔街那份体面的工作。而处理社交网络的大数据却是朝阳行业,人们开始发现大数据或许能让他们和华尔街一样赚钱—即便现在还没有那么多。
  最主要的盈利模式只有一个。“在线广告已经成为了过去十年财富创造最可靠的来源。把消费者和销售者配对起来,以及创造新的消费者和销售者,这对于任何市场来说都是最重要的问题。”Jeff Hammerbacher告诉《第一财经周刊》。2006年以前,他还是Robin的华尔街同行,但后来他成了最早加入Facebook的数据分析师之一,以研究科学家的身份帮助马克·扎克伯格搭建了最早的数据分析模型。换个更直白的说法:弄清楚用户点击广告的动机和方式。
  Facebook开启了互联网公司在盈利模式上的想象力,尽管有谷歌在先,但在线显示广告,甚至商业信息可以作为网站内容一部分这件事,还是给人们提供了不一样的思维方式。
  从公元前6世纪的亚历山大图书馆,到把一切都数字化的谷歌,再到SoLoMo时代,数据的获取正在变得越来越细致,也越来越个人化。创新咨询公司Frog(原Frog Design)在一份全球市场调查中发现,消费者对信用卡公司、在线零售商和科技公司的信任度最高,超过87%的调查者都乐意与这些公司分享个人数据。与此同时,因为对后台操作不了解,人们往往不知道自己已经分享了哪些个人数据。在Frog的另一份调查里,只有20%的人认为分享了自己的网络搜索关键词。而事实上,你并没有办法避免分享这部分数据。
  大数据的挖掘和分析就像任何行业一样,一开始只是Jeff Hammerbacher这样的个人研究者,但很快会发展出分工细致的专业服务公司。
  离Dalberg办公室步行10分钟之遥的地方,有家叫Social Flow的创业公司,它也许可以算作是内行。它和Twitter是合作伙伴,在Big Data行业中生机勃勃。它分析数据,告诉广告商什么是正确的时间,谁是正确的用户,什么是应该发的正确内容。广告商爱这家公司,这让这家公司已经有了40多名员工。
  这家成立于2009年的公司在2011年说服了在微软研究大数据的专家Gilad Lotan从波士顿搬家到纽约来和他们一起创业。Lotan看起来很年轻—他的专家资质来自于从2008年起就研究Twitter上的庞大数据,而不是像Robin那样直到今天才想要一探究竟。
  “你还记得2008年伊朗大选风波吗,每个人都在Twitter上转发,让人惊讶。”Lotan说。之后,他开始围绕伊朗大选做关于信息传播的模型。当时他还在微软工作,这些研究很快被用在了微软Bing搜索上,这是首个可以直接搜索社交媒体信息的搜索引擎。“每秒都有大量新内容产生,而且是非结构化的。这和传统的搜索很不一样。”Lotan说。
  Lotan喜欢将这些大量的数据分析后的结果可视化,使得那些非技术人员也能轻易明白这些数据在表达什么。在本拉登被射杀后,他所做信息图谱可以让人们清晰地看出,在白宫发出官方消息前谁引爆了Twitter上的消息传播。当然,在他开始在Social Flow工作之后,他会把客户请到办公室,将包含这些公司的信息图谱展现出来:有些是普通的时间轴,有些像蒲公英,有些则是铺满整个画面的泡泡,泡泡中显示这些客户的粉丝正在谈论什么话题。
  现在《经济学人》使用Social Flow的服务来分析自己的受众群,并且选择在什么时间来推送一条什么样的消息;而百事可乐则用这种服务比较不同的营销活动会得到什么样的传播效果。这些公司并不吝于为Social Flow的服务付费。
  事情看起来就是这样,除了广告,其他行业似乎还不知如何参与进来。Jeff Hammerbacher解释说,这是数字化让广告业的效率和产出变得更加容易衡量。就好像那句广告业的名言,“你知道有50%的投入被浪费了,只是你不知道是哪50%。”现在你能清楚看到那50%在哪里。Twitter和Facebook上的点击和转发数量能精确告诉广告商这个促销要比那个火热多少,Foursquare则告诉这些广告商人们和他们的家人朋友都去过哪里。尝过这些甜头之后,广告商会关注任何受到用户欢迎的新应用,甭管它是不是刚刚冒出来的。
  


  但Jeff Hammerbacher不觉得这是好事,2011年他就对《彭博商业周刊》说,“我一代中最聪明的人都在想着怎么让更多人点击广告,这真是糟糕透了。”然后他就去了硅谷当时创立不久的一家数据分析公司Cloudera,这家公司制作与任何形式、任何规模的数据相匹配的开源软件,很多公司以此为平台建立了自己的商业模式。难得的是,尽管开发开源软件,Cloudera还是能靠销售和服务支撑起目前将近200人的团队。
  Jeff Hammerbacher不缺乏志同道合者。Robin慕名而来的这场讨论会里大多数人都对“除了广告还能做什么”感兴趣,他们不懂分析和挖掘,但想知道趋势和数据的未来。
  “我在纽约市应急管理部门工作,搜集纽约的地理信息和数据,医院、警察局、天气变化等等,然后为可能发生的紧急事件提供预案,”一位叫做 Timothie Biggs的女士介绍自己,“也许我们以后也会搜集社交网络上的数据,因为你会更快地知道发生了些什么。”
  甚至举办这次活动的Dalberg公司也不是懂行的人。它成立于2001年,是一家为企业、政府和非营利性组织提供和经济发展、气候变化与公司治理有关的策略的公司。在2011年年末,这家公司觉得也许应该将Twitter和Facebook这类社交媒体加入到自己的分析中来。而这次讲座就是他们做的一次尝试。
  有个叫Robert Kirkpatrick的演讲者,是联合国秘书长执行办公室的官员。他和一些科研组织一起基于Twitter等社交媒体上的数据来研究通货膨胀、失业率等社会问题。他们给这个项目起了个名字,叫做“全球脉搏”(Global Pulse)。这个名字很容易让人想到Twitter在2009年给自己的战略定位:“如果我们拥有10亿用户,那我们就是地球的脉搏(If we had a billion users, that will be the pulse of the planet.)。”
  “的确看起来现在大数据以及数据挖掘更多和广告有关,创业公司们从广告上也更容易赚钱。但我想,也许这些分析方法和成果能运用到别的方面去。”Robert Kirkpatrick 说。
  他们挑选了一些话题作为实验。在一个被称作为“面包实时在线价格”(Real-Time E-pricing of Bread)的项目中,Global Pulse在6个拉丁美洲国家建立了每日价格指数。这个研究发现在线零售价格由于和线下价格的波动有联系,能比官方的数据更早发现通货膨胀的苗头。
  在另一个研究中,Global Pulse希望发现社交网络中情绪和失业率之间的关系。在爱尔兰,当社交网络上“困惑”和“沮丧”这些指标升高3个月后,失业率也会升高;而在美国发生在失业率升高之前持续升高的是“愤怒”这一指标。当然,也许对政府部门而言更有意义的是失业之后他们在谈论些什么:在“失业”指标上升2个月后人们在谈论“房子”,这也许意味着他们准备卖掉自己的房产;在过后的几个月,谈论“公交”和“地铁”的在上升,这也许意味着他们承担不起开车的油费,或者已经准备将车卖掉。
  “政府现在得到的数据是滞后的,他们做出的决定也非常缓慢。等政策做出几年后发现有错时,时间也不可能倒流。”Kirkpatrick 说。他觉得如果一个政府做决定能像广告商根据数据分析更新自己的营销策略一样快,那也许这个世界会变得更美好一些。
  但这些数据还远没有到可以直接使用的地步。机器无法理解一句话是陈述还是反讽,“数据太多太复杂了,有时你得问出对的问题,”Kirkpatrick 说,“而且,机器也无法像人一样理解不同的情景。例如通过数据你能发现乌干达很多人在卖掉自己自行车,但机器不能马上知道他们卖掉自行车的下一步可能就是买一把机关枪。”
  “这也是和我以前处理的数据不一样的地方,”和Robert聊完之后Kirkpatrick 说,“我以前处理的数据就是指‘数字’,不包含情感或其他引申含义。”
  越来越多的行业开始和数据打交道。美国联邦政府在2012年3月29日宣布将投入超过2亿美元在大数据研究上,而你会在这篇文章后面看到更多以各种方式利用数据的公司,它们都来自以色列,不仅仅因为以色列在大数据领域的创业公司尤多,还因为这些公司更为关注公共服务领域,无论是Takadu这样的为居民用水处理数据的公司,还是Given Imaging这样的胶囊摄像头公司。
  “在线浏览和在线购买都变得非常容易估量。当你有估量方法,你就可以研究科学。在这个意义上,我这一代中最聪明的人则在推动科学的前进。”Jeff Hammerbacher说,“但我不确定如何整合我们的社会,才能让致力于解决长期挑战的人觉得自己得到了应得的回报,这是一个值得问出口的问题。”
  有些行业面临的问题是数据量还不够大。谷歌创始人谢尔盖·布林的太太安妮·沃斯基创立的23andme是一家基因公司。他们希望用户能提供足够的唾液,而他们则回报给用户一份报告来了解自己和家族潜在的与基因有关的疾病。在4月6日,这家位于硅谷的公司邀请了一些有轻度帕金森症的患者到他们的办公室,对于他们而言,要研究帕金森综合症,目前的样本量还是不够大。
  事实上有更多的行业和领域被建构在越来越庞大和复杂的数据基础上—与此相关的公司也正在收到风险投资的青睐。“大数据不仅仅是一个时髦词汇,我相信它有真正的未来,”硅谷顶级风险投资机构德丰杰(Draper Fisher Jurvweston)创始合伙人Tim Draper对《第一财经周刊》说,“我们需要分辨出哪些是未来的趋势,哪些是时髦的概念,而大数据无疑是个趋势。”
  Tim Draper认为,未来更多的与复杂的数据相关的创业公司会陆续出现,而并非由大公司主宰一切。“这些数据将分散在各个领域,你的行车路线、你经常出现的地点、你喜欢的颜色、经常买的东西,社交网站上的观点和言论,这些都会成为个人数据的一部分,它们可以用来被服务每个 人。”
  而位于加州Palo Alto的创业公司Alohar开发的Placeme正是这样一款产品。它看上去是一款普通的地理位置应用,而事实上,它能自动记录你经常出现的地理位置,并自动生成为数据图表—这些信息会帮助分析每日的行程路线、生活必需场所,甚至驾驶里程与汽油存量的关系(因为它知道你上一次在哪里加过油),它们在一起将会变成一款“个人生活助理工具”—这应该是复杂的数据聚合在一起对个人直接产生辅助(而非广告)的第一个工具。
  “Siri是人们的语音助理,但它不是一款真正智能处理人们需求的产品,Placeme的数据处理会让它变成一款个人的智能助理工具。”Alohar创始人Sam Liang对《第一财经周刊》说。这家公司获得了从事分布式计算系统和数据分析处理长达数十年的斯坦福大学教授David Chariton的投资—他也是迄今世界上最庞大的“大数据”公司谷歌的第一位投资者。
  一年多以来,Jeff Hammerbacher看到的数据挖掘趋势是催生更多的开源工具包,也就是他在后面那篇对谈里提到的那些陌生的名字。它让更多的创业者更方便地开发产品,比如通过社交网络来收集数据的健康类App。也许未来数年后,它们搜集的数据能让医生给你的诊断变得更为精确,比方说不是通用的成人每日三次一次一片,而是检测到你的血液中药剂已经代谢完成会自动提醒你再次服药。
  “我深信科学是社会一切美好事物的伟大来源。数据则是被科学管理着的世界的代表。在广告于过去十年变得无比成熟的同时,许多产业甚至还没有进入数字时代,比如医疗。”Jeff Hammerbacher说。
  但正如他所言,“不幸的是,我人生中大部分期待有朝一日要被解决的问题,都不会因为更精准的广告迎刃而解。”
  还有更重要的事情要做。
其他文献
汉迪借用甜甜圈(doughnut)的形状提出一个所谓“甜甜圈原理”,但他所用的是把甜甜圈的形状反过来:中间是一个实心的核心,外面是一个有边界的空间。实心的核心是,“我们必须做什么”,外面的空间是,“我们能够做什么或我们可能是什么”,寻找到二者之间的独特平衡是我们生存的核心问题。  这个甜甜圈对创意工作者来说尤其重要,因为对过去的工作者而言,核心所代表的职责就是一切。但创意工作者的价值不仅是完成被分
期刊
再也没有人会不厌其烦地讨论互联网会分散小孩读书时的注意力这件事了吧,如果让时间倒退十年,大人们谈到喜欢围着电脑转的小朋友都摆出一副头疼的架势。其实我们也没有变成什么反面教材,相反,那些我们小时候沉迷过的事情,现在看来也不算太坏吧。  且不说钱永健小时候整天待在家里摆弄瓶瓶罐罐长大之后获得了诺贝尔化学奖,即便是每个普通的人,“沉迷”在一件事情里未必是件坏事。就像在日本读博士的卓明,你肯定想不到她曾经
期刊
SoLoMo,这个词去年出现不久,Jelf Hammerbacher也离开Facebook的数据专家的职位,同时留下一句广为流传的话:“我们这一代人中最聪明的头脑都在想着怎么让更多的人点击广告,这真是糟糕透了。”那么这个智慧的头脑去做了什么?或者说,更多智慧的头脑在做什 么?  去年我们做这个题目的过程当中,一点点明白一件事:在SoLoMo热闹的表相背后,数据本身越来越多地呈现出它吞噬一切的力量,
期刊
即便你的这份工作,所有该尽的职责都明确无误地写在了工作文档里,你也依此执行不敢怠慢,但突发状况这样东西既不会提前和你打好招呼,也不会因为你的确可以称得上是一个一丝不苟、遵规守纪,大多数时候有着严密的预备方案的公司人而减弱一点自己的势头。  当状况发生,你成为“对此事负责”小组的一员,你可能会觉得有点委屈。“这不是我的责任”是你此时此刻最想表达的意思,但到底要不要说?怎么说?什么时候说?对哪些人说?
期刊
01 你真的只吃白水鸡胸肉吃了两年?上一次感觉到美味是什么时候?什么时候会放弃这种“为了银幕形象”的举动?  吃了一年多,剧组的午餐晚餐都是这个。最近一次是今天早上,因为很久没回家,妈妈给我端了一盘饺子,我都吃了,热量很高。除非角色需要我长胖,否则我恐怕几十年都会这样控制饮食。  02 如果列一个厌恶清单,哪几样东西会占据前三甲的位置?  朋友的背叛。对我的家人朋友不尊重。诬陷我。  03 生活圈
期刊
最近,欧洲最大航空公司汉莎航空宣布第一季度亏损3.81亿欧元,并将在全球范围内裁员3500名。当然,这不仅是汉莎一家公司的问题,全球大部分航空公司在第一季度的关键词都是“亏损”、“利润大幅下滑”。  总的来说,航空公司在做着一个很奇怪的生意:选择乘坐飞机的消费者越来越多,国际航空运输协会称,2015年全球乘飞机人数将达35.5亿人次,比2010年增加8.77亿人次。但即使是行业里顶尖的航空公司也始
期刊
Pause  一位价值投资者的价值  至少到5月6日伯克希尔·哈撒韦年度股东大会召开当天,人们仍然看不出前列腺癌对沃伦·巴菲特造成的明显影响。现年81岁的“投资之神”一如既往地带着他和蔼的笑容,出现在了美国内布拉斯加州奥马哈的大会现场,还和他的老朋友比尔·盖茨用硕大的乒乓球拍,打起了乒乓球赛。  伯克希尔·哈撒韦年度股东大会仍然是全球投资者的“狂欢节”。在这里,与会者在5个小时的时间内有18个机会
期刊
C=CBNweekly N=Bjorn Naf  C: 目前,全球公务机(Business Jets)市场的整体状况怎样?摩根大通近日发布的报告称,全球公务机市场还远未复苏,新兴市场的表现还有待观察。对此您怎么看?  N: 从全球角度来看,公务机整个市场重心还是在美国。首先从数量上来说,那里大约有1.2万架到1.3万架公务机。算上香港和澳门,整个大中华区目前的公务机数量也就只有200架左右。但增长
期刊
公司名称 BillGuard  创办时间及规模 2011年,首轮融资300万美元,第二轮1000万美元  数据表现为 交易记录提醒  数据挖掘方式 信用卡交易记录  改变了什么 个人对信用卡交易失误的忽略  未来的影响/想象 通过社交网络以及其他后台数据监测金融服务  亮点 用户举报、社交媒体信息抓取  有几个人会认真看自己每个月的信用卡对账单?也许举手者寥寥。  就算你现在知道在不引起你注意的情
期刊
C=CBNweekly S=Howard Schultz  C: 你觉得企业如何做才能维持一个比较低的人员流动率?  S: 要维持比较低的员工流动率,就要在面对公司客户建立一个成功的品牌形象之前,必须首先在公司内部,也就是在员工和伙伴中建立一个非常成功的品牌形象。对于一家成功的公司来说,品牌的一个重要性格特征,就是信任。而这种信任是要经过很多年管理层和员工共同努力,一起建立起来的。通过管理层和员工
期刊