论文部分内容阅读
【摘要】首先,本文给出了笔者认为的统计学研究的典型问题究竟是什么;然后,阐述了什么是大数据;最后,就笔者的理解浅谈了大数据时代统计学究竟还有没有用武之地.
【关键词】统计学;大数据;统计分析
一、统计学研究的典型问题
众所周知,统计学是处理数据的一门科学.人们给统计学下的定义很多,比如,《不列颠百科全书》中“统计学是收集、分析、表述和解释数据的科学”;《韦伯斯特国际词典(第3版)》中“统计是一门收集、分析、解释和提供数据的科学”;Mario F.Triola的《初级统计学》中“统计指的是一组方法,用来设计实验、获得数据,然后在这些数据的基础上组织、概括、演示、分析、解释和得出结论”.笔者认为,统计学研究的典型问题是“运用已知数据获得所研究的客观事物的数量特征和发展规律,利用规律对所研究的客观事物的行为进行预测”.
首先,统计学研究的典型问题的关键之一就是必须有所研究问题的数据,这是研究的前提.那么如何获得已知数据呢?我们说可以通过调查,也可以通过实验.先来说通过调查获得已知数据,情况有两种,一种是抽样调查,另一种是普查.给大家举一个例子,比如,某研究部门想知道其所在城市所有职工家庭的年平均收入.那么,“该城市所有职工家庭的年平均收入”就构成了所研究问题的总体.“该城市中的每一个职工家庭的年平均收入”就是总体中的个体.如果要通过抽样调查来获得数据,也就是抽取部分个体组成样本,比如,该部门抽取了2 000个职工家庭的年平均收入作为样本,那么就获得了2 000个样本数据(某年的年收入数据),这就是通过抽样调查获得的已知数据.再用这同一个例子来说一说普查.比如,2016年,该研究机构对其所在城市中的每一个职工家庭都进行了调查,获得了每个个体(职工家庭)的2015年的年收入数据,这就是通过普查获得的已知数据.
当然也可以通过实验来获得已知数据,做实验的过程就复杂了.要想通过实验获得靠谱的数据,首先,得满足样本量足够大,然后,就是要做到随机.现实中这两点也不是很容易做到的.例如,假设我们现在想研发一种做运动鞋的新材料,看看是不是比旧的材料更耐磨.又假设我们现在的研发成本非常高,只能提供4双样品鞋.于是,我们找来了8个孩子来试穿,4双新材料4双旧材料.看到这儿,第一反应是样本量小了,但是没有办法啊,实际情况只允许我们做到这种程度.那么在样本量无法扩大的前提下,怎么做才能使实验靠谱呢?我们给每一个孩子随机选一只脚穿新材料,另一只脚穿旧材料.这样,每一组新旧材料的对比都是基于同一个孩子的,这就不存在比如,孩子是否喜欢运动等的混淆因素了.
统计学研究的典型问题的第二个关键点就是需要有合理的统计分析.针对已经获得的已知数据也就是样本数据,我们采用合理的统计分析,定会对所研究的客观事物的数量特征和规律进行准确的描述、分析和判断.
统计学研究的典型问题的第三个关键点就是对未来的预测具有不确定性.分两个方面来给大家阐述.首先,未来必须是未知的,如果所研究的某事物的未来行为或特征是已经知道的,那这就不属于统计学要研究的问题.其次,预测必须是不确定的.如果预测的结果只有一种,也就是预测的结果是确定的,那这也不属于统计学要研究的问题.比如,我们想知道人体的骨骼有多少块骨头?于是,抽选部分人作为样本,通过对样本研究获得已知数据,进而来预测其余未被抽中的人,这种预测具有确定性,人体骨骼是由206块骨头组成.这就不属于统计学要研究的问题.再比如,一种新药出厂后用于临床试验获得已知数据,然后对更广泛的同类型病人的疗效做预测性推断,具有不确定性.
二、什么是大数据
当今,“大数据”如日中天,似乎已经成为人们的流行语,那什么是大数据呢?麦肯锡对大数据的定义是从数据集的“大体量”入手的:大数据是指那些规模大到传统的数据库软件工具已经无法采集、存储、管理和分析的数据集.维基百科采纳了麦肯锡的定义,认为大数据是一组庞大而复杂的数据集的集合,大且复杂到难以用现有的数据库管理工具或传统的数据处理应用来处理,大数据就是一切可记录信号的集合.狭义地讲,大数据是一个大样本和高维变量的数据集合.广义地讲,大数据涵盖多学科领域、多源、混合的数据,自然科学、人文社会、经济学、通讯、网络、商业和娱乐等各种领域的数据集相互重叠连成了一片数据的海洋.大数据涉及各种数据类型,包括文本与语言、录像与图像、时空、网络与图形.我认为,当今流行的“大数据”是通过互联网获得的足够大量的、包含一切数据类型的数据的集合.
三、大数据时代,统计学是不可或缺的
我们姑且先不去谈大数据和统计学中的数据谁更全面,谁更方便获得,谁更相对有代表性;不去谈什么样本和总体,我们就只是来说一说,大数据时代,只是有全部的数据就足够了吗?笔者认为当然不是.无论是大数据还是统计学中的样本数据最初都是杂乱的、无序的,所以说,大数据时代,数据的处理、理论分析等的问题就显得尤为重要了.这些重要问题的解决都离不开统计学,它需要统计理论和统计分析方法.
就是舍恩伯格和库克耶也不同意安德森的极端观点.他们指出“大数据绝不会叫嚣‘理论已死’”,因为“大数据是在理论的基础上形成的”,无论是如何搜集数据、分析数据、还是解读研究结果,都得依赖理论.“大数据时代绝对不是一个理论消亡的时代,相反地,理论贯穿于大数据分析的方方面面.”
綜上,即便是在大数据时代,统计学也是不可或缺的.
【关键词】统计学;大数据;统计分析
一、统计学研究的典型问题
众所周知,统计学是处理数据的一门科学.人们给统计学下的定义很多,比如,《不列颠百科全书》中“统计学是收集、分析、表述和解释数据的科学”;《韦伯斯特国际词典(第3版)》中“统计是一门收集、分析、解释和提供数据的科学”;Mario F.Triola的《初级统计学》中“统计指的是一组方法,用来设计实验、获得数据,然后在这些数据的基础上组织、概括、演示、分析、解释和得出结论”.笔者认为,统计学研究的典型问题是“运用已知数据获得所研究的客观事物的数量特征和发展规律,利用规律对所研究的客观事物的行为进行预测”.
首先,统计学研究的典型问题的关键之一就是必须有所研究问题的数据,这是研究的前提.那么如何获得已知数据呢?我们说可以通过调查,也可以通过实验.先来说通过调查获得已知数据,情况有两种,一种是抽样调查,另一种是普查.给大家举一个例子,比如,某研究部门想知道其所在城市所有职工家庭的年平均收入.那么,“该城市所有职工家庭的年平均收入”就构成了所研究问题的总体.“该城市中的每一个职工家庭的年平均收入”就是总体中的个体.如果要通过抽样调查来获得数据,也就是抽取部分个体组成样本,比如,该部门抽取了2 000个职工家庭的年平均收入作为样本,那么就获得了2 000个样本数据(某年的年收入数据),这就是通过抽样调查获得的已知数据.再用这同一个例子来说一说普查.比如,2016年,该研究机构对其所在城市中的每一个职工家庭都进行了调查,获得了每个个体(职工家庭)的2015年的年收入数据,这就是通过普查获得的已知数据.
当然也可以通过实验来获得已知数据,做实验的过程就复杂了.要想通过实验获得靠谱的数据,首先,得满足样本量足够大,然后,就是要做到随机.现实中这两点也不是很容易做到的.例如,假设我们现在想研发一种做运动鞋的新材料,看看是不是比旧的材料更耐磨.又假设我们现在的研发成本非常高,只能提供4双样品鞋.于是,我们找来了8个孩子来试穿,4双新材料4双旧材料.看到这儿,第一反应是样本量小了,但是没有办法啊,实际情况只允许我们做到这种程度.那么在样本量无法扩大的前提下,怎么做才能使实验靠谱呢?我们给每一个孩子随机选一只脚穿新材料,另一只脚穿旧材料.这样,每一组新旧材料的对比都是基于同一个孩子的,这就不存在比如,孩子是否喜欢运动等的混淆因素了.
统计学研究的典型问题的第二个关键点就是需要有合理的统计分析.针对已经获得的已知数据也就是样本数据,我们采用合理的统计分析,定会对所研究的客观事物的数量特征和规律进行准确的描述、分析和判断.
统计学研究的典型问题的第三个关键点就是对未来的预测具有不确定性.分两个方面来给大家阐述.首先,未来必须是未知的,如果所研究的某事物的未来行为或特征是已经知道的,那这就不属于统计学要研究的问题.其次,预测必须是不确定的.如果预测的结果只有一种,也就是预测的结果是确定的,那这也不属于统计学要研究的问题.比如,我们想知道人体的骨骼有多少块骨头?于是,抽选部分人作为样本,通过对样本研究获得已知数据,进而来预测其余未被抽中的人,这种预测具有确定性,人体骨骼是由206块骨头组成.这就不属于统计学要研究的问题.再比如,一种新药出厂后用于临床试验获得已知数据,然后对更广泛的同类型病人的疗效做预测性推断,具有不确定性.
二、什么是大数据
当今,“大数据”如日中天,似乎已经成为人们的流行语,那什么是大数据呢?麦肯锡对大数据的定义是从数据集的“大体量”入手的:大数据是指那些规模大到传统的数据库软件工具已经无法采集、存储、管理和分析的数据集.维基百科采纳了麦肯锡的定义,认为大数据是一组庞大而复杂的数据集的集合,大且复杂到难以用现有的数据库管理工具或传统的数据处理应用来处理,大数据就是一切可记录信号的集合.狭义地讲,大数据是一个大样本和高维变量的数据集合.广义地讲,大数据涵盖多学科领域、多源、混合的数据,自然科学、人文社会、经济学、通讯、网络、商业和娱乐等各种领域的数据集相互重叠连成了一片数据的海洋.大数据涉及各种数据类型,包括文本与语言、录像与图像、时空、网络与图形.我认为,当今流行的“大数据”是通过互联网获得的足够大量的、包含一切数据类型的数据的集合.
三、大数据时代,统计学是不可或缺的
我们姑且先不去谈大数据和统计学中的数据谁更全面,谁更方便获得,谁更相对有代表性;不去谈什么样本和总体,我们就只是来说一说,大数据时代,只是有全部的数据就足够了吗?笔者认为当然不是.无论是大数据还是统计学中的样本数据最初都是杂乱的、无序的,所以说,大数据时代,数据的处理、理论分析等的问题就显得尤为重要了.这些重要问题的解决都离不开统计学,它需要统计理论和统计分析方法.
就是舍恩伯格和库克耶也不同意安德森的极端观点.他们指出“大数据绝不会叫嚣‘理论已死’”,因为“大数据是在理论的基础上形成的”,无论是如何搜集数据、分析数据、还是解读研究结果,都得依赖理论.“大数据时代绝对不是一个理论消亡的时代,相反地,理论贯穿于大数据分析的方方面面.”
綜上,即便是在大数据时代,统计学也是不可或缺的.