论文部分内容阅读
一场关于流感的大数据神话
2008年9月4日的《自然》杂志“Big Data”专辑中,谷歌研究人员宣布,他们不需要任何医院的体检结果,即可快速追踪美国境内流感的传播趋势。美国疾病控制中心 (CDC)至少需要一周时间才能得出一张流感传播趋势图,而谷歌仅需要一天。大数据的概念正式亮相。
几个月之后的2009年,流感病毒(H1N1)迅速传播,引起世界范围内的恐慌。因为当时新的疫苗还没有研发出来,只能以预防控制为主,流感传播趋势信息就显得尤其重要。谷歌大数据快速形成的流感传播趋势报告,一下子成为一个及时有效的参考指标。大数据一战成名,很快成为企业家、 科学家、 政府和媒体的痴迷对象。
有点尴尬的大数据四个信条
“大数据”实际上是个很含糊的概念,不过很多营销人员喜欢将它挂在嘴边,用来强调数据规模巨大。大数据的鼓吹者有四个令他们兴奋不已的信条,而且都能从“谷歌流感趋势”的成功中得到印证:
★大数据分析出的结果惊人地准确;
★大数据搜集的是总体样本,而不是旧有的抽样样本(意为所以更精确);
★大数据无需麻烦地追查前因后果,只需统计相关性;
★大数据是“理论终结者”,不再需要科学的或统计的模型。《连线》杂志发文称:“有足够的数据就可以了,数据可以自己发言。”
剑桥大学的David Spiegelhalter教授对此不以为然,他认为:“大数据中也有很多小数据问题,不会因为数据大了就消失,反而会变得更糟。”
果然在《自然》杂志发表谷歌的那篇文章4年之后,坏消息传来,“谷歌流感趋势”失灵了!在成功运行几个冬天之后,谷歌模型预测可能爆发严重的流感,但事实证明谷歌把这个结果夸大了近两倍。
问题在于谷歌根本不知道搜索关键词与流感之间有什么样的联系,谷歌的工程师只是关心统计模型得出的相关性,而不是找出因果关系(第三信条),这样得出的结果是非常脆弱的:如果不知道相关性背后的原因,也就不可能知道什么情况下相关性会消失。如果分析一下原因,2012 年12月份,关于流感的可怕故事到处流传,引发很多健康的人也上网搜索相关消息,从而导致谷歌的统计模式失效。还有就是当用户搜索相关病症的时候,谷歌的搜索算法会暗示一些诊断信息,这进一步影响到用户的搜索行为,加大了预测的偏差。谷歌后来对算法进行了调整,不过这个教训提醒人们,大数据使用不当很容易落入陷阱。
为什么大数据会出错
统计学家花了200多年的时间,试图找出存在于数据世界里的各种陷阱。虽然现在采集的数据更多、更快、更容易,但是我们不可能假装数据中的这些陷阱已经没有了,这是不可能的事情。
举例来说,1936 年共和党的阿尔弗雷德·兰登和富兰克林·罗斯福竞选总统,《读者文摘》发出1000万份调查并收回240万回执,统计后得出兰登将以55:41赢得大选。但实际结果却是罗斯福以61:37的优势大胜对手。更令《读者文摘》尴尬的是,乔治·盖洛普只用了一个很小规模的调查,却得出了和实际情况接近的结果。这个例子说明的是,数据大小并不能决定一切。
民意调查涉及到大范围的人口抽样,必须要处理好两个问题:样本误差和样本偏差。样本误差是指随机选择的人(样本)并不能反映人的真正意见,但是随着样本增大,误差就变小,这对《读者文摘》来说是个优势。但是伴随样本误差还有一个更为危险的朋友——样本偏差。乔治·盖洛普的抽样数量少,所以他有更多精力去排除带有偏见的样本,而《读者文摘》的样本基数太多,所以很难避免样本偏差。大数据同样有着这一问题,搜集数据变得容易,但是在海量而混乱的数据中剔除偏差的样本,殊非易事。
大数据追求“N=所有”,也就是不需要再进行抽样,而是全部的数据,这样确实没有了样本偏差。但问题是,真正“N=所有”的数据是不可能有的,比如就算能读取推特上的所有信息,但是这些用户并不能代表世界上的所有人,并且推特上的信息也不可能代表用户的全部。“N=所有”往往是一种假设,而不是事实。所以微软研究员Kate Crawford就指出,发现数据中包含有偏差就得想办法纠正,大数据集看起来全面,但“N=所有”只是一个诱人的错觉。
大数据时代的隐私危机
除技术上可能的种种谬误,大数据最令人诟病的是它对隐私的侵犯。前段时间,谷歌就因为侵犯数据隐私在法国被判定违法,责令整改。
大数据如同一头吃不饱的怪兽,所有的网上信息都尽可能吸收,如此庞杂混乱的数据如何会泄露个人隐私?喜欢看侦探电影和小说的人都知道,大侦探们总喜欢搜集一些看起来支离破碎的信息,然后神奇地拼凑出案情的全貌。大数据正是如此,我们在网上不同的地方,如发微博、浏览网站、回贴评论等,看起来很琐碎,但是大数据搜集后可以通过算法提取出你的所有信息,拼凑出你在网上的轨迹。
虽然网上流传各种各样隐私保护的方法技巧,但最终还是需要通过立法才能有效保护。令人欣慰的是,许多国家开始采取积极的措施。
当然,廉价的数据和强大的分析工具终将产生大数据奇迹,谷歌翻译就是目前最接近于“无理论”以及“数据驱动算法”来完成的一个成功案例。但是几个世纪以来困扰统计学家们的事物因果联系的推断,大数据依然没有解决,这些都有待于统计方法的进一步突破。
2008年9月4日的《自然》杂志“Big Data”专辑中,谷歌研究人员宣布,他们不需要任何医院的体检结果,即可快速追踪美国境内流感的传播趋势。美国疾病控制中心 (CDC)至少需要一周时间才能得出一张流感传播趋势图,而谷歌仅需要一天。大数据的概念正式亮相。
几个月之后的2009年,流感病毒(H1N1)迅速传播,引起世界范围内的恐慌。因为当时新的疫苗还没有研发出来,只能以预防控制为主,流感传播趋势信息就显得尤其重要。谷歌大数据快速形成的流感传播趋势报告,一下子成为一个及时有效的参考指标。大数据一战成名,很快成为企业家、 科学家、 政府和媒体的痴迷对象。
有点尴尬的大数据四个信条
“大数据”实际上是个很含糊的概念,不过很多营销人员喜欢将它挂在嘴边,用来强调数据规模巨大。大数据的鼓吹者有四个令他们兴奋不已的信条,而且都能从“谷歌流感趋势”的成功中得到印证:
★大数据分析出的结果惊人地准确;
★大数据搜集的是总体样本,而不是旧有的抽样样本(意为所以更精确);
★大数据无需麻烦地追查前因后果,只需统计相关性;
★大数据是“理论终结者”,不再需要科学的或统计的模型。《连线》杂志发文称:“有足够的数据就可以了,数据可以自己发言。”
剑桥大学的David Spiegelhalter教授对此不以为然,他认为:“大数据中也有很多小数据问题,不会因为数据大了就消失,反而会变得更糟。”
果然在《自然》杂志发表谷歌的那篇文章4年之后,坏消息传来,“谷歌流感趋势”失灵了!在成功运行几个冬天之后,谷歌模型预测可能爆发严重的流感,但事实证明谷歌把这个结果夸大了近两倍。
问题在于谷歌根本不知道搜索关键词与流感之间有什么样的联系,谷歌的工程师只是关心统计模型得出的相关性,而不是找出因果关系(第三信条),这样得出的结果是非常脆弱的:如果不知道相关性背后的原因,也就不可能知道什么情况下相关性会消失。如果分析一下原因,2012 年12月份,关于流感的可怕故事到处流传,引发很多健康的人也上网搜索相关消息,从而导致谷歌的统计模式失效。还有就是当用户搜索相关病症的时候,谷歌的搜索算法会暗示一些诊断信息,这进一步影响到用户的搜索行为,加大了预测的偏差。谷歌后来对算法进行了调整,不过这个教训提醒人们,大数据使用不当很容易落入陷阱。
为什么大数据会出错
统计学家花了200多年的时间,试图找出存在于数据世界里的各种陷阱。虽然现在采集的数据更多、更快、更容易,但是我们不可能假装数据中的这些陷阱已经没有了,这是不可能的事情。
举例来说,1936 年共和党的阿尔弗雷德·兰登和富兰克林·罗斯福竞选总统,《读者文摘》发出1000万份调查并收回240万回执,统计后得出兰登将以55:41赢得大选。但实际结果却是罗斯福以61:37的优势大胜对手。更令《读者文摘》尴尬的是,乔治·盖洛普只用了一个很小规模的调查,却得出了和实际情况接近的结果。这个例子说明的是,数据大小并不能决定一切。
民意调查涉及到大范围的人口抽样,必须要处理好两个问题:样本误差和样本偏差。样本误差是指随机选择的人(样本)并不能反映人的真正意见,但是随着样本增大,误差就变小,这对《读者文摘》来说是个优势。但是伴随样本误差还有一个更为危险的朋友——样本偏差。乔治·盖洛普的抽样数量少,所以他有更多精力去排除带有偏见的样本,而《读者文摘》的样本基数太多,所以很难避免样本偏差。大数据同样有着这一问题,搜集数据变得容易,但是在海量而混乱的数据中剔除偏差的样本,殊非易事。
大数据追求“N=所有”,也就是不需要再进行抽样,而是全部的数据,这样确实没有了样本偏差。但问题是,真正“N=所有”的数据是不可能有的,比如就算能读取推特上的所有信息,但是这些用户并不能代表世界上的所有人,并且推特上的信息也不可能代表用户的全部。“N=所有”往往是一种假设,而不是事实。所以微软研究员Kate Crawford就指出,发现数据中包含有偏差就得想办法纠正,大数据集看起来全面,但“N=所有”只是一个诱人的错觉。
大数据时代的隐私危机
除技术上可能的种种谬误,大数据最令人诟病的是它对隐私的侵犯。前段时间,谷歌就因为侵犯数据隐私在法国被判定违法,责令整改。
大数据如同一头吃不饱的怪兽,所有的网上信息都尽可能吸收,如此庞杂混乱的数据如何会泄露个人隐私?喜欢看侦探电影和小说的人都知道,大侦探们总喜欢搜集一些看起来支离破碎的信息,然后神奇地拼凑出案情的全貌。大数据正是如此,我们在网上不同的地方,如发微博、浏览网站、回贴评论等,看起来很琐碎,但是大数据搜集后可以通过算法提取出你的所有信息,拼凑出你在网上的轨迹。
虽然网上流传各种各样隐私保护的方法技巧,但最终还是需要通过立法才能有效保护。令人欣慰的是,许多国家开始采取积极的措施。
当然,廉价的数据和强大的分析工具终将产生大数据奇迹,谷歌翻译就是目前最接近于“无理论”以及“数据驱动算法”来完成的一个成功案例。但是几个世纪以来困扰统计学家们的事物因果联系的推断,大数据依然没有解决,这些都有待于统计方法的进一步突破。