成也流感败也流感大数据还是大错误

来源 :电脑爱好者 | 被引量 : 0次 | 上传用户:serena_gy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  一场关于流感的大数据神话
  2008年9月4日的《自然》杂志“Big Data”专辑中,谷歌研究人员宣布,他们不需要任何医院的体检结果,即可快速追踪美国境内流感的传播趋势。美国疾病控制中心 (CDC)至少需要一周时间才能得出一张流感传播趋势图,而谷歌仅需要一天。大数据的概念正式亮相。
  几个月之后的2009年,流感病毒(H1N1)迅速传播,引起世界范围内的恐慌。因为当时新的疫苗还没有研发出来,只能以预防控制为主,流感传播趋势信息就显得尤其重要。谷歌大数据快速形成的流感传播趋势报告,一下子成为一个及时有效的参考指标。大数据一战成名,很快成为企业家、 科学家、 政府和媒体的痴迷对象。
  有点尴尬的大数据四个信条
  “大数据”实际上是个很含糊的概念,不过很多营销人员喜欢将它挂在嘴边,用来强调数据规模巨大。大数据的鼓吹者有四个令他们兴奋不已的信条,而且都能从“谷歌流感趋势”的成功中得到印证:
  ★大数据分析出的结果惊人地准确;
  ★大数据搜集的是总体样本,而不是旧有的抽样样本(意为所以更精确);
  ★大数据无需麻烦地追查前因后果,只需统计相关性;
  ★大数据是“理论终结者”,不再需要科学的或统计的模型。《连线》杂志发文称:“有足够的数据就可以了,数据可以自己发言。”
  剑桥大学的David Spiegelhalter教授对此不以为然,他认为:“大数据中也有很多小数据问题,不会因为数据大了就消失,反而会变得更糟。”
  果然在《自然》杂志发表谷歌的那篇文章4年之后,坏消息传来,“谷歌流感趋势”失灵了!在成功运行几个冬天之后,谷歌模型预测可能爆发严重的流感,但事实证明谷歌把这个结果夸大了近两倍。
  问题在于谷歌根本不知道搜索关键词与流感之间有什么样的联系,谷歌的工程师只是关心统计模型得出的相关性,而不是找出因果关系(第三信条),这样得出的结果是非常脆弱的:如果不知道相关性背后的原因,也就不可能知道什么情况下相关性会消失。如果分析一下原因,2012 年12月份,关于流感的可怕故事到处流传,引发很多健康的人也上网搜索相关消息,从而导致谷歌的统计模式失效。还有就是当用户搜索相关病症的时候,谷歌的搜索算法会暗示一些诊断信息,这进一步影响到用户的搜索行为,加大了预测的偏差。谷歌后来对算法进行了调整,不过这个教训提醒人们,大数据使用不当很容易落入陷阱。
  为什么大数据会出错
  统计学家花了200多年的时间,试图找出存在于数据世界里的各种陷阱。虽然现在采集的数据更多、更快、更容易,但是我们不可能假装数据中的这些陷阱已经没有了,这是不可能的事情。
  举例来说,1936 年共和党的阿尔弗雷德·兰登和富兰克林·罗斯福竞选总统,《读者文摘》发出1000万份调查并收回240万回执,统计后得出兰登将以55:41赢得大选。但实际结果却是罗斯福以61:37的优势大胜对手。更令《读者文摘》尴尬的是,乔治·盖洛普只用了一个很小规模的调查,却得出了和实际情况接近的结果。这个例子说明的是,数据大小并不能决定一切。
  民意调查涉及到大范围的人口抽样,必须要处理好两个问题:样本误差和样本偏差。样本误差是指随机选择的人(样本)并不能反映人的真正意见,但是随着样本增大,误差就变小,这对《读者文摘》来说是个优势。但是伴随样本误差还有一个更为危险的朋友——样本偏差。乔治·盖洛普的抽样数量少,所以他有更多精力去排除带有偏见的样本,而《读者文摘》的样本基数太多,所以很难避免样本偏差。大数据同样有着这一问题,搜集数据变得容易,但是在海量而混乱的数据中剔除偏差的样本,殊非易事。
  大数据追求“N=所有”,也就是不需要再进行抽样,而是全部的数据,这样确实没有了样本偏差。但问题是,真正“N=所有”的数据是不可能有的,比如就算能读取推特上的所有信息,但是这些用户并不能代表世界上的所有人,并且推特上的信息也不可能代表用户的全部。“N=所有”往往是一种假设,而不是事实。所以微软研究员Kate Crawford就指出,发现数据中包含有偏差就得想办法纠正,大数据集看起来全面,但“N=所有”只是一个诱人的错觉。
  大数据时代的隐私危机
  除技术上可能的种种谬误,大数据最令人诟病的是它对隐私的侵犯。前段时间,谷歌就因为侵犯数据隐私在法国被判定违法,责令整改。
  大数据如同一头吃不饱的怪兽,所有的网上信息都尽可能吸收,如此庞杂混乱的数据如何会泄露个人隐私?喜欢看侦探电影和小说的人都知道,大侦探们总喜欢搜集一些看起来支离破碎的信息,然后神奇地拼凑出案情的全貌。大数据正是如此,我们在网上不同的地方,如发微博、浏览网站、回贴评论等,看起来很琐碎,但是大数据搜集后可以通过算法提取出你的所有信息,拼凑出你在网上的轨迹。
  虽然网上流传各种各样隐私保护的方法技巧,但最终还是需要通过立法才能有效保护。令人欣慰的是,许多国家开始采取积极的措施。
  当然,廉价的数据和强大的分析工具终将产生大数据奇迹,谷歌翻译就是目前最接近于“无理论”以及“数据驱动算法”来完成的一个成功案例。但是几个世纪以来困扰统计学家们的事物因果联系的推断,大数据依然没有解决,这些都有待于统计方法的进一步突破。
其他文献
使用PC不泄密  关闭Win8定位  从Win8开始,微软就在系统内置定位服务。如果你不希望在使用Win8时泄露自己的位置信息,可以将Win8定位服务关闭。依次展开“控制面板→大图标显示→选中定位设置图标”,在打开的窗口去除“启用Windows定位平台”和“帮助改进Microsoft定位服务”前的勾选,接着点击“应用”即可(图1)。  现在很多手机上的应用都有定位服务,比如微信、手机QQ、阡陌等应
期刊
解惑Flash 版本问题巧重装  在某些网站上播放视频时,有时会遇到提示Flash版本过低,但又无法安装的情况。安装过程中提示“正尝试安装的 Adobe(R) Flash(R) Player 版本不是最新的版本”,这时可按如下方法解决。  按Win+R组合键启动“运行”窗口,输入regedit启动注册表编辑器。定位到[HKEY_LOCAL_MACHINE\SOFTWARE\Macromedia\F
期刊
【挑战题描述】作为大四学生,最近写毕业论文需要到网上查阅大量的期刊资料。我发现读览(www.dooland.com)之类的网站提供大量最新期刊,不过只能预览前面几页。其实我找的资料一般只是某杂志的一小部分文章,希望能找到一个提取的办法。(题号:20140903)
期刊
【挑战题描述】  京东、当当网上出售的电子书都有一定的限制,比如京东电子书只能使用其提供的“LeBookBoot”客户端读取(并且最多只可在4台设备上使用,当当的则最多绑定5个设备),还有打开电子书后只能复制100个字的内容等。既然我已经花钱购买下来,当然希望这些电子书在自己使用的设备上没有过多限制,求解决方法。(题号:20140902)  【解题思路】  因为书籍我们已经购买,并且可以在本地电脑
期刊
让个人文件也能被快速搜到  如果要将文件包含在库中,可右键单击文件夹选择“包含在库中”命令。可以人为设置索引位置。通过“搜索工具→高级选项→更改索引位置→修改→更改所选位置→选择添加新的索引位置”,可将自定文件夹纳入到系统文件索引范围内。  将文件夹添加到库中后,可能无法立即搜索和查看完整的文件夹,这是因为Windows还在为该文件夹编制索引。将文件纳入库管理之后,编制索引的工作由系统自动完成,但
期刊
“偏心眼”的客户端  目前支付宝客户端只有Android和iOS两个版本,对于使用这两个系统之外的用户来说,手续费就是必不可免的了(图1)。问题是,不是所有用户都拥有上述系统的手机,也并非所有用户都放心手机端的支付交易(怕不安全),因此坚持在PC端转账的也是大有人在。好消息是,我们只需在PC上安装Android虚拟机来虚拟出一台Android手机,在此基础上安装支付宝客户端不就可以免去手续费转账了
期刊
充分利用现有的设备和技术  既然苹果还要一年后才能实现,我们就看看Android系统。谷歌类似的“投射模式”(Projected Mode)汽车智能手机连接系统远未成熟,你根本没法在网上买到任何类似的设备。解决办法就是自己动手、丰衣足食,借助现有的智能手机或平板电脑,还有共享网络的无线数据连接。添加一只成本低廉的Gooseneck底座以及便于车上使用的车载启动器应用程序界面,就可以自己制造出一套导
期刊
在线检测助升级  为了帮用户尽快升级操作系统,微软推出一个全新的网站(mIRunningXP.com),它的作用很简单,当用户在XP系统中访问这个网站后,网页会显示出“You are running Windows XP”的提示(图1),并且给出Windows XP存在的问题及升级的必要性。  XP中的数据快速导出  除了这个宣传网站,为了方便用户在升级过程中对数据进行迁移,微软还专门推出一款名为
期刊
善用网格与参考线  网线和参考线可以辅助我们进行排版,在图1中的4个人物图像,为了让他们的高度基本相等并且头部在同一水平线,在排列5张小图片时启用了智能参考线,移动图片时会自动吸附对齐。而右上角的圆则综合用了网格和参考线确定圆心的位置。  切换到“视图”选项卡,勾选“网格线”显示网格,在排列人物时,就可以将头部定位在同一行的网格中,单击“网格设置”按钮可修改网格及参考线的设置。勾选“参考线设置”下
期刊
相对于网络搜索来说,PC本地搜索  有着更悠久的历史和广泛的需求。  从PC诞生时起,凡是使用电脑的用户,  就会面临文件查找和内容查找的双重需求。  本地搜索使用的方法和工具不同,  搜索所用时间和搜索效率就会有很大差别。  如何快速从本地的系统、用户分区甚至  公司局域网中找到自己需要的文件或内容,  是每个使用PC的用户应掌握的基本技能。  充分利用长文件名优势  Windows系统可支持的
期刊