敬畏数据:幸存者偏差

来源 :中国信息技术教育 | 被引量 : 0次 | 上传用户:jx34343
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  疫情管控期间,在學校门岗值班,利用这点闲暇在网上给孩子找一本RISC-V方面的英文版教材,发现其价格在800~1000多元,不由感叹计算机方面的书真贵。同事取笑说:“计算机方面的人才收入高啊,这点书费跟年薪50万相比根本微不足道了。”一旁的门卫大爷听到,不屑地说:“哪来那么多的年薪50万,现在的大学生都找不到工作了,身边的人都是没上大学的比上大学的混得好。”
  面对老一套的“读书无用”论,我一时竟然不知如何反驳,只好问他身边都有哪些例子。大爷振振有词地说,邻居那个大学毕业生现在还在卖鸡蛋,刚刚出门的那辆奔驰里面坐的是没上过大学的超市老板。我说你其他邻居的孩子呢,大学毕业都做什么了?他说那就不得而知了,可能也有像你这样当老师的,勉强糊口。我忽然明白了,大爷之所以觉得上学的不如没上学的,原因不在于价值观,而是他只能看到他所在的圈子的情况,那些远走高飞成就一番事业的,他根本无从知晓。
  这就好比,“没来的请举手!”没人举手,于是老师宣布,大家都来了。人们总是只看到经过筛选而产生的结果,没有意识到筛选的过程,因此忽略了被筛选掉的关键信息。这就是幸存者偏差。
  1941年,哥伦比亚大学统计学教授沃德应军方要求,提供关于“飞机应如何加强防护才能降低被击落概率”的相关建议。沃德教授利用联军遭受攻击后返航的幸存轰炸机的数据进行研究后发现:机翼弹痕最多而机尾弹痕最少。但沃德教授给出的结论却是“应该强化机尾的防护”。这让军方非常疑惑,因为机翼才是最容易被击中的位置,为何不是加强机翼的防护呢?沃德教授的解释是:这些统计的样本只涵盖了幸存的飞机,多次被击中机翼的飞机仍然飞回来了,说明这地方不致命;机尾弹痕较少并非是机尾不易被击中,而是那些机尾被击中的飞机大多已无法返航了……一句话,看不见的弹痕最致命。这个经典的统计偏差即被后人称为“幸存者偏差”。
  成功人士的经验分享,也有这样的误区。不管他有怎样的经验,他都是成功者,或者说是“幸存者”,其经验往往都是没有参考价值的大路货。而失败者的教训——就好比被击中的机尾,才是宝贵的,这些教训能避免自己重蹈覆辙而直接挂掉。然而失败者却已经没有机会说话了,幸存者才有表现的机会。
  一个笑话中提到,记者到车站了解春运期间车票是否难买,在排队进站的人群中采访,“请问你买到火车票了吗?”“买到了。”“你呢?”“买到了。”问到的人都买到票了,于是记者对着镜头说:“都说今年火车票难买,但是通过采访我们发现,大家都买到了火车票。”
  幸存者偏差往往就是忽略了筛选条件,把经过筛选的结果当成随机结果。读过纳西姆·塔勒布《随机漫步的傻瓜》一书的人都会感叹,我们多年积累的经验在随机性面前是多么不可靠,轻易地就被随机性愚弄。
  在大数据时代,我们已经可以得到很多相关联的数据,但是对这些数据进行利用和分析时,却可能犯各种统计错误,如新冠肺炎初期的病死率,有人就直接用当时的病死人数除以感染人数来计算;疫情期间一年的离婚率,据说高达30%,实际上竟然是用当年离婚人数除以结婚人数得到的……
  除了考虑样本的代表性,还要考虑数据的相关性,除了考虑看得见的数据,还要想想那些没有看到的数据。
  对待数据,还是要保持敬畏之心。
其他文献
Sentinel-2卫星兼具了空间分辨率高、重放周期短、谱段丰富三方面特点,为蓝藻水华爆发阶段及时准确的蓝藻水华提取提供了影像基础,但目前在大型湖泊蓝藻水华提取中的应用报道较少。为此,文章以2018—2020年巢湖的Sentinel-2遥感影像为例,开展包括浮游藻类指数(FAI)在内的多指标蓝藻水华提取方法研究,针对FAI阈值难以确定的典型问题,提出了基于回归分析的FAI阈值确定方法。结果表明,(
浮游植物的生长往往受多种环境因素共同作用,独特的地理特征也是影响其密度与群落结构变化的要素之一。为探索喀斯特高原水库浮游植物与环境因子的耦合关系,以贵州省典型喀斯
城市绿地是改善热环境的重要方式之一,当前研究主要集中于以景观指数衡量的绿地空间形态与热环境之间的关系,较少关注以城市公园为主的绿地内部空间结构对热环境的影响及其规
近年来,稻田Cd污染引起的环境及健康问题日益突出。应用钝化技术对土壤中有效性Cd进行钝化对稻田生态系统中Cd的生物地球化学循环具有重要的理论和实际意义。在广东省韶关市
为明确退化土壤在不同恢复年限下土壤有机氮组分变化规律,以福建长汀县退化红壤为研究对象,利用时空替代法,选取5个典型的不同植被恢复阶段样地,分别为裸地,恢复7、17、23、35a的马尾松(Pinusmassoniana)人工林,采用Bremner酸水解法研究土壤有机氮各组分的变化特征。结果表明,与裸地相比,恢复年限为7、17、23、35a的土壤全氮含量分别增加了2.57、3.71、4.00、5.57
轮作休耕是实现"藏粮于地、藏粮于技"的重要途径之一,目前在太湖稻田区域主要推广紫云英(Astragalus sinicus L.)-水稻(Oryza sativa L.)、油菜(Brassica napus L.)-水稻和休
农田蒸散量是作物蒸腾量和土壤蒸发量的总和,准确估算农田蒸散量对制定合理的灌溉计划至关重要,进而对农作物的增产保收具有重要的意义。研究作物系数及蒸散量估算模型已成为
盐碱土壤物理结构差,植物成活率低,煤矸石具有改善盐碱土壤物理结构和化学性质的潜力,将煤矸石应用于盐碱地,能够达到煤矸石废弃资源循环利用和盐碱地改良的双重效果。为阐明煤矸石对盐碱土壤的改良效果和对土壤物理化学性质的影响,将不同用量(0、10%、20%、30%、40%、50%)和不同粒径(小粒径5 mm以及小中大等比例混合粒径)煤矸石施用于盐碱土壤,通过紫花苜蓿(Medicago sativa)盆栽试
新疆棉区棉花黄萎病发生危害严重,提高该病的生态防控技术对实现棉花"化肥、农药"减施增效有重要意义。文章以阿克苏、石河子和库尔勒三地棉花黄萎病不同发生程度棉田土壤为
利用新型开顶式气室(OTC)开展CO_2浓度升高和大气增温试验,分别为模拟增温2.0℃,模拟增温2.0℃且CO_2浓度增加到650μmol·mol-1,对照CO_2浓度约410μmol·mol^(-1),