论文部分内容阅读
生活的经历告诉我们做事情一定要“心中有数”,但心中有数首先要眼里有数,所以我们习惯于“实证方法”,通过调查得出统计数据,再做成表格、箭头图、饼图、柱状图、折线图、曲线图等,好了,这下,我们踏实了,
可是,由于商业利益的存在,统计数据也会表现出倾向性。或者预先设定了倾向性,所以,让我们感到踏实的数字未必反映真实状况,我们依赖的“实证方法”未必就“实”,其过程可能是把一种倾向研究成“事实”或证明成“事实”。
美国著名统计学家达莱尔-哈夫提出,当你面对统计数据时,先要问自己5个问题:谁说的?他是如何知道的?遗漏了什么?是否有人偷换了概念?这个资料有意义么?
我很注意电视、报纸上卖药的广告,“中国有百分之××”的人“缺钙”……这个“百分之××”是多少呢?一般是70%、80%、90%,很奇怪,过去凭票过日子的时候,中国人啥营养成分都不缺,现在怎么什么都缺?如果把广告所警告的疾病、营养不良的百分比都归总一下,这个结果是够吓人的,
问题的根本在于,这个危言耸听的统计是谁做的?当然是厂商做的,那么出现如此荒诞的统计也就不足为怪了。
统计的陷阱在哪里呢?首先是统计本身的不真实性,比如统计样本的选择偏差,或是样本空间过小,导致代表性差。
统计分析让一切假象原形毕露,但遗憾的是,统计未必能够揭示真实,有时候还可能制造假象。
由于调查者的主观意向或者客观失误的影响,统计样本的选择偏差直接影响到纷计的结果,比如,你有一桶豆子,有红色、有白色。那么红色的豆子有多少呢?如果按照统计学的办法,就是抓一把豆子(抽样),然后算一下红白豆子的比例就能够得到近似的结果,但这个前提是,红白豆子在体积、形状、重量上的无差异化,如果是大豆子和小豆子呢?按照物理学原理,小豆子会在桶的下面,而大豆子在上面,如果你在上面抓一把样本,就是大豆子多;在桶底抓一把样本,就是小豆子多。
样本的空间要足够大,才能保证统计的稳定性和可信度,比如说,抽取10个样本和抽取1000个样本,显然是不一样的,当初美国某大学有一个惊人的统计数据,该校物理系有50%的女生和男教师同居,校方大为震惊,仔细调查,确实如此,该系有两名女生,其中一人与男教师坠入爱河……
统计的另一个陷阱在于统计之后的分析过程,在分析中,统计者是否遗漏了什么?或者忽视了统计所依赖的条件?
我们经常看到这样的分析报告。某产品价格为1000元,目前消费群体是10万,年收入1亿元,如果全国有百分之一的人消费该产品,就会有1300万消费群体,年收入将高达130亿元,带来××亿元的税后利润。
类似的分析过程我们并不陌生,但统计者忽略了一个事实,那就是从10万消费群体增加到1300万的前提是价格的大幅降低,而价格大幅降低之后,收入就不会那么多了。利润更会有很大的变化,试想,如果现在的手机还是当年大哥大的价格(4万元左右),能做到如此普及么?
以突发事件代替常态,从小样本推广到大样本,如果忽视了一些重要的因素,分析过程就会产生缺陷,即使是正确的统计数据也未必能得到正确结论。
可是,由于商业利益的存在,统计数据也会表现出倾向性。或者预先设定了倾向性,所以,让我们感到踏实的数字未必反映真实状况,我们依赖的“实证方法”未必就“实”,其过程可能是把一种倾向研究成“事实”或证明成“事实”。
美国著名统计学家达莱尔-哈夫提出,当你面对统计数据时,先要问自己5个问题:谁说的?他是如何知道的?遗漏了什么?是否有人偷换了概念?这个资料有意义么?
我很注意电视、报纸上卖药的广告,“中国有百分之××”的人“缺钙”……这个“百分之××”是多少呢?一般是70%、80%、90%,很奇怪,过去凭票过日子的时候,中国人啥营养成分都不缺,现在怎么什么都缺?如果把广告所警告的疾病、营养不良的百分比都归总一下,这个结果是够吓人的,
问题的根本在于,这个危言耸听的统计是谁做的?当然是厂商做的,那么出现如此荒诞的统计也就不足为怪了。
统计的陷阱在哪里呢?首先是统计本身的不真实性,比如统计样本的选择偏差,或是样本空间过小,导致代表性差。
统计分析让一切假象原形毕露,但遗憾的是,统计未必能够揭示真实,有时候还可能制造假象。
由于调查者的主观意向或者客观失误的影响,统计样本的选择偏差直接影响到纷计的结果,比如,你有一桶豆子,有红色、有白色。那么红色的豆子有多少呢?如果按照统计学的办法,就是抓一把豆子(抽样),然后算一下红白豆子的比例就能够得到近似的结果,但这个前提是,红白豆子在体积、形状、重量上的无差异化,如果是大豆子和小豆子呢?按照物理学原理,小豆子会在桶的下面,而大豆子在上面,如果你在上面抓一把样本,就是大豆子多;在桶底抓一把样本,就是小豆子多。
样本的空间要足够大,才能保证统计的稳定性和可信度,比如说,抽取10个样本和抽取1000个样本,显然是不一样的,当初美国某大学有一个惊人的统计数据,该校物理系有50%的女生和男教师同居,校方大为震惊,仔细调查,确实如此,该系有两名女生,其中一人与男教师坠入爱河……
统计的另一个陷阱在于统计之后的分析过程,在分析中,统计者是否遗漏了什么?或者忽视了统计所依赖的条件?
我们经常看到这样的分析报告。某产品价格为1000元,目前消费群体是10万,年收入1亿元,如果全国有百分之一的人消费该产品,就会有1300万消费群体,年收入将高达130亿元,带来××亿元的税后利润。
类似的分析过程我们并不陌生,但统计者忽略了一个事实,那就是从10万消费群体增加到1300万的前提是价格的大幅降低,而价格大幅降低之后,收入就不会那么多了。利润更会有很大的变化,试想,如果现在的手机还是当年大哥大的价格(4万元左右),能做到如此普及么?
以突发事件代替常态,从小样本推广到大样本,如果忽视了一些重要的因素,分析过程就会产生缺陷,即使是正确的统计数据也未必能得到正确结论。