论文部分内容阅读
所谓“养兵千日,用兵一时”,又所謂“台上一分钟,台下十年功”,多年的寒窗苦读,终于到了最后上战场拼刺刀的时刻。除了尽量考高分,填报志愿也是一门门大学问,如果你明白了辛普森悖论,并充分运用到志愿填报当中,那么我敢保证,一定能让你考上更好的大学!
吃饱喝足才有力气干正事,填报志愿前,我们先打开外卖APP“饿死了么”,看到两家都还不错的餐厅,究竟吃哪一家呢?不如看大数据,跟着评分高的走准没错。于是我们看到,A餐厅400人评分,250人吃了都说好。B餐厅也是400人评分,216人说好。貌似A餐厅评分更好,就选A吗?
等一下,我们看一下评价中详细结构,A餐厅150人给菜品打分,其中好评有50人,好评率30%,250人给送餐速度打分,200人好评,好评率80%;而B餐厅360人给菜品打分,180人说好,好评率50%,40人给送餐速度打分,36人说好,好评率90%。从两种评价来看,都是B餐厅好评率更高,但汇总到一起,却是A餐厅胜出,是网站搞错了,还是我们的直觉出了问题?
实际上大家都没错,这就是辛普森悖论。在分组比较中都占优势的一方,在总评中有时反而是失势的一方。该现象于20世纪初就有人讨论,但一直到1951年,E.H.辛普森在他发表的论文中阐述此现象后,该现象才算正式被描述解释。后来就以他的名字命名此悖论,即辛普森悖论。
我们再举一个例子,最近欧冠也是如火如荼,假设有这样两名球员,一个叫洗咯,一个叫没洗,他们各打了100场比赛,由于碰到的对手不同,洗咯打了80场高难度的比赛,赢了48场,胜率60%;没洗只打了30场高难度的比赛,赢了12场,胜率40%,这么看跟高手过招,洗咯压倒性胜利。
再来看虐球渣,洗咯打了20场,全胜,胜率100%;没洗打了70场,胜了63场,还有7场居然梦游输了,所以胜率90%。虐球渣这方面还是洗咯完胜。然后我们把比赛汇总:
无论打高难度还是低难度比赛,洗咯都更能制霸球场,但最后却是没洗走得更远,这真是见了鬼了!(球员为假设,你也可以把名字对调位置)
我们把辛普森悖论运用到经济上,政治家们就常常玩这样的把戏,比如美国的福特总统在1974~1978年的任期中,他对每个收入人群都进行了减税,但此期间全国性的税收额却有了明显上涨。明白了这个道理,以后走上职场,你就会发现老板看上去把你的每一项任务都减轻了,但总任务其实增加了;而看上去每一项奖金和福利比例都提高了,拿到手的却少了。(这么写杂志社会不会炒我鱿鱼……)
最著名的辛普森悖论的实例,就是1973年加利福尼亚大学伯克利分校性别歧视案例。当年该校研究所一共收到12763名学生的申请,从表格里可以看到,如果只看整体录取率,那么男生的录取率是44%,女生的是35%。
不求甚解的话,一般人肯定会得出这样的结论——女生被歧视了。打算申请这所著名大学的女生要是看到这样的数据,八成肺都气炸了。
别急,现在把上面的数据按照院系拆分,再来看看每个系的录取率。
可以看到,在6个院系中有4个系,女生的录取率都大于男生,女生只在2个院系里容易被折戟。这是由于研究所入学申请与大学部不同,是由各学院独立作业,而男女生申请各学院的比例也不一样,例如英语系的入学申请者有三分之二是女生,而机械工程系的申请者只有2%是女生,这就造成了分开看女生占优势,汇总后男生占优势的矛盾情况。加州大学伯克利分校终于自证清白。
划重点:我们填报志愿时,千万别只看报考人数和录取人数的比例,还得拆分来分析,比如各专业录取人数比例、男女人数比例,不光看当年,再把最近几年的数据都分析一遍,有可能A大学综合录取比例低于B大学,但数据细化后你会发现,考上A大学的几率比B大学更高。
题外话:辛普森悖论(Simpson's paradox)是皮尔森(Karl Pearson)和尤尔(Udny Yule)提出的,因此也正说明了史蒂格勒的命名定律(Stigler's law of eponymy):没有一个科学发现是以原发现者的名字来命名的。包括史蒂格勒命名定律,它是由莫顿(Robert Merton)提出的。
吃饱喝足才有力气干正事,填报志愿前,我们先打开外卖APP“饿死了么”,看到两家都还不错的餐厅,究竟吃哪一家呢?不如看大数据,跟着评分高的走准没错。于是我们看到,A餐厅400人评分,250人吃了都说好。B餐厅也是400人评分,216人说好。貌似A餐厅评分更好,就选A吗?
等一下,我们看一下评价中详细结构,A餐厅150人给菜品打分,其中好评有50人,好评率30%,250人给送餐速度打分,200人好评,好评率80%;而B餐厅360人给菜品打分,180人说好,好评率50%,40人给送餐速度打分,36人说好,好评率90%。从两种评价来看,都是B餐厅好评率更高,但汇总到一起,却是A餐厅胜出,是网站搞错了,还是我们的直觉出了问题?
实际上大家都没错,这就是辛普森悖论。在分组比较中都占优势的一方,在总评中有时反而是失势的一方。该现象于20世纪初就有人讨论,但一直到1951年,E.H.辛普森在他发表的论文中阐述此现象后,该现象才算正式被描述解释。后来就以他的名字命名此悖论,即辛普森悖论。
我们再举一个例子,最近欧冠也是如火如荼,假设有这样两名球员,一个叫洗咯,一个叫没洗,他们各打了100场比赛,由于碰到的对手不同,洗咯打了80场高难度的比赛,赢了48场,胜率60%;没洗只打了30场高难度的比赛,赢了12场,胜率40%,这么看跟高手过招,洗咯压倒性胜利。
再来看虐球渣,洗咯打了20场,全胜,胜率100%;没洗打了70场,胜了63场,还有7场居然梦游输了,所以胜率90%。虐球渣这方面还是洗咯完胜。然后我们把比赛汇总:
无论打高难度还是低难度比赛,洗咯都更能制霸球场,但最后却是没洗走得更远,这真是见了鬼了!(球员为假设,你也可以把名字对调位置)
我们把辛普森悖论运用到经济上,政治家们就常常玩这样的把戏,比如美国的福特总统在1974~1978年的任期中,他对每个收入人群都进行了减税,但此期间全国性的税收额却有了明显上涨。明白了这个道理,以后走上职场,你就会发现老板看上去把你的每一项任务都减轻了,但总任务其实增加了;而看上去每一项奖金和福利比例都提高了,拿到手的却少了。(这么写杂志社会不会炒我鱿鱼……)
最著名的辛普森悖论的实例,就是1973年加利福尼亚大学伯克利分校性别歧视案例。当年该校研究所一共收到12763名学生的申请,从表格里可以看到,如果只看整体录取率,那么男生的录取率是44%,女生的是35%。
不求甚解的话,一般人肯定会得出这样的结论——女生被歧视了。打算申请这所著名大学的女生要是看到这样的数据,八成肺都气炸了。
别急,现在把上面的数据按照院系拆分,再来看看每个系的录取率。
可以看到,在6个院系中有4个系,女生的录取率都大于男生,女生只在2个院系里容易被折戟。这是由于研究所入学申请与大学部不同,是由各学院独立作业,而男女生申请各学院的比例也不一样,例如英语系的入学申请者有三分之二是女生,而机械工程系的申请者只有2%是女生,这就造成了分开看女生占优势,汇总后男生占优势的矛盾情况。加州大学伯克利分校终于自证清白。
划重点:我们填报志愿时,千万别只看报考人数和录取人数的比例,还得拆分来分析,比如各专业录取人数比例、男女人数比例,不光看当年,再把最近几年的数据都分析一遍,有可能A大学综合录取比例低于B大学,但数据细化后你会发现,考上A大学的几率比B大学更高。
题外话:辛普森悖论(Simpson's paradox)是皮尔森(Karl Pearson)和尤尔(Udny Yule)提出的,因此也正说明了史蒂格勒的命名定律(Stigler's law of eponymy):没有一个科学发现是以原发现者的名字来命名的。包括史蒂格勒命名定律,它是由莫顿(Robert Merton)提出的。