论文部分内容阅读
美国统计协会、数理统计学会、国际生物计量学学会、国际生物统计学会、伯努利和皇家统计学会等联合宣布2013年为国际统计年,为此得到全世界1700多个组织的支持.国际统计年的目标是:增加公众对统计在社会各方面影响的认识;鼓励从事统计工作和推动概率与统计科学的创新和发展.
1 什么是统计
《新华词典》的解释是:对某一现象有关数据的搜集、整理、计算和分析等.2012年北京卫视“身边”的一次访谈节目中,主持人拿了一个西瓜,问里面有多少瓜籽.有的观众说,吃完后数一下;有的观众说,把西瓜切成八块,吃完一块后,数一下瓜籽,再乘以8即得.北京市统计局长说,前面观众的办法是计数,后者是统计,这一解释似是通俗版的统计.唐诗:“山僧不解数甲子,一叶落知天下秋,”应是文学版的统计.
英文中统计“Statis tics”一词源于意大利的“Stato”,它有“国家”和“情况”的含义.德国的康令曾在西尔姆斯大学开设了一门课程“staatenkunele”,原意是各国状况的比较.后哥廷根大学的阿瓦尔将关于国家、人口、军队、资源等项的学问称为国势学,还用了一个新词“Statis tik”,1787年译为英文“Statis tic”.
统计学初期是将搜集的数据进行分析、整理,称为记述统计学.英国的佩蒂将统计学广泛用于社会经济问题,1676年完成了《政治算术》.马克思说:“佩蒂是政治经济之父,在某种程度上也是统计学的创始人”.18世纪由于概率理论的日益成熟,为推断统计学奠定了理论基础,其中英国人费希尔做出了重要贡献.
2009年开始,互联网信息技术行业流行一个词汇——大数据(big data).大数据目前尚无准确的定义,一般认为是通过收集、整理海量的数据,分析挖掘出有价值的信息,其核心问题就是预测.麻省理工学院凯特·克劳福德在“对大数据的再思考”中说:“大数据是当前的时髦术语,是技术界用来解决世界上最难处理的问题的全能办法.这个术语一般用来描述对海量信息进行分析,从而发现规律、收集有价值的见解和预言复杂问题答案的技巧与科学.”
2 统计规律性
生活中的因果关系我们都很熟悉.但是如果掷一枚硬币,则可能是正、反两种情况.法国人蒲丰掷了4040次,出现正面2048次,频率为05070.英国统计学家皮尔逊掷了24000次,出现正面12012次,频率为05005.在自然条件下,男女婴儿的出生率也是稳定的.英国人格朗特为此提出了“统计比率稳定性”的概念.恩格斯在《路德维希·费尔巴哈和德国古典哲学的终结》中指出:“在表面上是偶然性起作用的地方,这种偶然性始终是受内部的隐藏的规律支配的,而我们的问题在于发现这些规律.”在统计规律的范畴内,考查量与量之间的关系不是因果关系,而是皮尔逊和格尔顿在遗传学的研究中提出的相关关系.在《大数据时代》一书中,有个重要的观点,就是放弃对因果关系的渴求而关注相关关系.也就是说,很多时候只要知道“是什么”而不需要知道“为什么”.清华大学毕业的鄂威从事广告营销工作,他在做数据挖掘时发现:去听罗大佑现场演唱会的人,对上海大众车的兴趣会提高30%.为什么会这样呢?分析一下是喜欢这种款式车的人是35岁左右的、居家型的希望提高生活品质的男性,这类人正是喜爱罗大佑歌曲的人群.这不一定是真实的原因,而真实原因对营销策划也不是那么重要.
3 身边的统计学
《南方周末》2013年4月有一篇报导,题目是“数据就是生产力”,其中指出:在信息社会,数据将是核心资源,就像农业时代的土地,工业时代的能源.统计学是处理数据的,因而也走进了我们的生活.在技术、医学、生物科学和工业生产都离不了统计.社会科学方面如人口预测、环境控制、保险精算、交通管理也都离不开统计学的参与.《红楼梦》作者是谁?众说纷纭.复旦大学李贤平教授对《红楼梦》每个回目中所用的47个虚字(云、其、或……),出现的次数(频率)进行统计分析,得出如下结论:前80回是曹雪芹据《石头记》写成,中间插入《风月宝鉴》;后40回是曹雪芹亲友将其草稿整理而成.谷歌的一群工程师通过整合居民在网点检索药品的信息,成功预测了美国H1N1流感疫情,……
统计学在未来的社会中发挥着越来越大的作用,如果你有志从事统计工作,在你面前将现出广阔美好的前景.
1 什么是统计
《新华词典》的解释是:对某一现象有关数据的搜集、整理、计算和分析等.2012年北京卫视“身边”的一次访谈节目中,主持人拿了一个西瓜,问里面有多少瓜籽.有的观众说,吃完后数一下;有的观众说,把西瓜切成八块,吃完一块后,数一下瓜籽,再乘以8即得.北京市统计局长说,前面观众的办法是计数,后者是统计,这一解释似是通俗版的统计.唐诗:“山僧不解数甲子,一叶落知天下秋,”应是文学版的统计.
英文中统计“Statis tics”一词源于意大利的“Stato”,它有“国家”和“情况”的含义.德国的康令曾在西尔姆斯大学开设了一门课程“staatenkunele”,原意是各国状况的比较.后哥廷根大学的阿瓦尔将关于国家、人口、军队、资源等项的学问称为国势学,还用了一个新词“Statis tik”,1787年译为英文“Statis tic”.
统计学初期是将搜集的数据进行分析、整理,称为记述统计学.英国的佩蒂将统计学广泛用于社会经济问题,1676年完成了《政治算术》.马克思说:“佩蒂是政治经济之父,在某种程度上也是统计学的创始人”.18世纪由于概率理论的日益成熟,为推断统计学奠定了理论基础,其中英国人费希尔做出了重要贡献.
2009年开始,互联网信息技术行业流行一个词汇——大数据(big data).大数据目前尚无准确的定义,一般认为是通过收集、整理海量的数据,分析挖掘出有价值的信息,其核心问题就是预测.麻省理工学院凯特·克劳福德在“对大数据的再思考”中说:“大数据是当前的时髦术语,是技术界用来解决世界上最难处理的问题的全能办法.这个术语一般用来描述对海量信息进行分析,从而发现规律、收集有价值的见解和预言复杂问题答案的技巧与科学.”
2 统计规律性
生活中的因果关系我们都很熟悉.但是如果掷一枚硬币,则可能是正、反两种情况.法国人蒲丰掷了4040次,出现正面2048次,频率为05070.英国统计学家皮尔逊掷了24000次,出现正面12012次,频率为05005.在自然条件下,男女婴儿的出生率也是稳定的.英国人格朗特为此提出了“统计比率稳定性”的概念.恩格斯在《路德维希·费尔巴哈和德国古典哲学的终结》中指出:“在表面上是偶然性起作用的地方,这种偶然性始终是受内部的隐藏的规律支配的,而我们的问题在于发现这些规律.”在统计规律的范畴内,考查量与量之间的关系不是因果关系,而是皮尔逊和格尔顿在遗传学的研究中提出的相关关系.在《大数据时代》一书中,有个重要的观点,就是放弃对因果关系的渴求而关注相关关系.也就是说,很多时候只要知道“是什么”而不需要知道“为什么”.清华大学毕业的鄂威从事广告营销工作,他在做数据挖掘时发现:去听罗大佑现场演唱会的人,对上海大众车的兴趣会提高30%.为什么会这样呢?分析一下是喜欢这种款式车的人是35岁左右的、居家型的希望提高生活品质的男性,这类人正是喜爱罗大佑歌曲的人群.这不一定是真实的原因,而真实原因对营销策划也不是那么重要.
3 身边的统计学
《南方周末》2013年4月有一篇报导,题目是“数据就是生产力”,其中指出:在信息社会,数据将是核心资源,就像农业时代的土地,工业时代的能源.统计学是处理数据的,因而也走进了我们的生活.在技术、医学、生物科学和工业生产都离不了统计.社会科学方面如人口预测、环境控制、保险精算、交通管理也都离不开统计学的参与.《红楼梦》作者是谁?众说纷纭.复旦大学李贤平教授对《红楼梦》每个回目中所用的47个虚字(云、其、或……),出现的次数(频率)进行统计分析,得出如下结论:前80回是曹雪芹据《石头记》写成,中间插入《风月宝鉴》;后40回是曹雪芹亲友将其草稿整理而成.谷歌的一群工程师通过整合居民在网点检索药品的信息,成功预测了美国H1N1流感疫情,……
统计学在未来的社会中发挥着越来越大的作用,如果你有志从事统计工作,在你面前将现出广阔美好的前景.