论文部分内容阅读
数据统计在当今时代很受重视。其过程包括对数据的收集、整理、描述和分析等。结合典型实例进行分析,是学习数据统计的重要方式。本文以空气检测为例,介绍抽样调查和直方图,反映“用样本估计总体”的统计思想。
空气质量指数(AQI)是定量描述空气质量状况的数据。人们根据对空气中的主要污染物(包括细颗粒物PM2.5、可吸入颗粒物PM10、二氧化硫、二氧化氮、臭氧、一氧化碳等)含量的检测,按规定的方法得出相应的数值。空气质量指数按数值大小划分为0~50,51~100,101~150,151~200,201~300和大于300六档。它们分别对应空气质量的六个级别:优、良、轻度污染、中度污染、重度污染和严重污染,测定与公布空气质量指数,对于保护环境和人体健康具有实际意义。
问题:A市地域广大,人口众多,有森林、河流、湖泊等多种自然环境,有工业区、农业区、商业区、居民区、校园区等多种区域,道路四通八达。现要求针对某时间段实时报告该市的空气质量指数,应如何操作?
1.抽样调查,收集数据。
在数据统计中。要研究的全体对象是总体。其中每个对象是个体。例如在上述问题中,A市每一处的空气质量指数都是个体,其总和是总体。
对所有个体都收集数据的调查方式叫作全面调查,只对总体中部分个体收集数据的调查方式叫作抽样调查。抽样调查所抽取的各个个体合起来叫作总体的一个样本。一个样本中个体的数目叫作样本容量。样本容量太小可能会使调查结果过于片面,样本容量过大可能会造成调查成本的浪费。
选取何种调查方式,要根据调查的必要性和可行性来确定。例如,A市地广人多,自然环境与社会环境多样化,各处的空气质量必然存在差异。因此,A市的空气质量指数适宜取该市各处空气质量指数的平均值。但是,对A市每一处都进行检测显然不现实。实际做法通常是:采取某种方式选取若干地点进行检测,分别得到它们的空气质量指数,然后以其平均值代表该市的空气质量指数。这属于抽样调查。
抽取样本的具体方式有多种。例如。可根据地图先把A市均匀地划分成一些面积较小的区域,再从中随机抽取若干小区域进行检测。
某检测小组将A市按占地面积均匀地划分为900个小区域。并从中抽取27个小区域(小区域总数的3%)组成样本。检测得出这27个小区域的空气质量指数分别如下:88,116,104,88,108,124,126,106,87,80,116,119,130,109,148,118,106,98,95,136,90,97,78,76,96,69,100。
这是抽样调查所得的原始数据。由此可进一步得出样本平均值104等再生数据。作为评估总体状况的参考依据。
2.列表画图,描述数据。
整理原始数据有利于发现其中包含的更多信息。例如,上面27个原始数据中,最小值为69,最大值为148。将它们按大小分为9组,落在各组中的数据的个数叫作各组的频数,频数可描述原始数据的分布规律。表1是频数分布表。
由频数分布表已能看出样本中的数据在各组中的分布情况,为使分布规律更直观地表现出来,可用统计图描述数据。频数分布直方图是一种常用的统计图,其横轴表示数据的取值,每个小长方形都对应一个小组,小长方形的下底对应相应分组的取值范围。底的长度等于组距;小长方形的高等于频数与组距的商。因此,小长方形的面积=底×高=组距×频数/组距=频数。等距分组时,通常直接用小长方形的高表示频数。
图1是与表1对应的频数分布直方图。将图中各个小长方形的上底的中点用线段顺次连接,所得的图形(如图2)也能表示频数分布规律。由图2可以看出,折线像一个“扣着的钟”。这显示出数据的分布大致关于某个与105接近的值(如样本平均数104)对称分布,越接近这个值,数据越多,越偏离这个值,数据越少。
3.借助样本,估计总体。
通过抽取样本,收集、整理、描述和分析原始数据,我们可以对总体情况进行估计。这是一种统计思维。根据上述样本的信息,我们可以把A市的空气质量指数估计为104。这反映出A市此时有轻度空气污染。这样的思考方法是“从部分认识整体,从特殊认识一般”的归纳法。
由于统计学研究的问题多具有随机性强的特征,总体中的各个个体之间一般都存在差异,即使是同一个体,在不同时间和条件下,其状态也会发生变化。不同的抽样方法可能得到不同的样本,而样本的个体与非样本的个体可能有差别。因此,不能认为样本信息百分之百地表示了总体的状况。另一方面,尽管个体之间不完全相同,但是由于它们处于同一总体之中,通常具有很多共性。抽取合适的样本可以在某种程度上反映出这些共性,而对共性的认识恰恰是估计总体的依据。例如,同一城市不同区域的空气质量可能不尽相同,但是相距不太远的地方。气象条件差异不大,它们的空气质量会比较接近,因此用合理的抽样调查得到的结果。就接近于总体的实际情况。
同学们在学习数据统计时。一定要注意体验收集、整理、描述和分析数据的全过程。结合实例加深认识,建立统计观念,提高数据处理能力。
空气质量指数(AQI)是定量描述空气质量状况的数据。人们根据对空气中的主要污染物(包括细颗粒物PM2.5、可吸入颗粒物PM10、二氧化硫、二氧化氮、臭氧、一氧化碳等)含量的检测,按规定的方法得出相应的数值。空气质量指数按数值大小划分为0~50,51~100,101~150,151~200,201~300和大于300六档。它们分别对应空气质量的六个级别:优、良、轻度污染、中度污染、重度污染和严重污染,测定与公布空气质量指数,对于保护环境和人体健康具有实际意义。
问题:A市地域广大,人口众多,有森林、河流、湖泊等多种自然环境,有工业区、农业区、商业区、居民区、校园区等多种区域,道路四通八达。现要求针对某时间段实时报告该市的空气质量指数,应如何操作?
1.抽样调查,收集数据。
在数据统计中。要研究的全体对象是总体。其中每个对象是个体。例如在上述问题中,A市每一处的空气质量指数都是个体,其总和是总体。
对所有个体都收集数据的调查方式叫作全面调查,只对总体中部分个体收集数据的调查方式叫作抽样调查。抽样调查所抽取的各个个体合起来叫作总体的一个样本。一个样本中个体的数目叫作样本容量。样本容量太小可能会使调查结果过于片面,样本容量过大可能会造成调查成本的浪费。
选取何种调查方式,要根据调查的必要性和可行性来确定。例如,A市地广人多,自然环境与社会环境多样化,各处的空气质量必然存在差异。因此,A市的空气质量指数适宜取该市各处空气质量指数的平均值。但是,对A市每一处都进行检测显然不现实。实际做法通常是:采取某种方式选取若干地点进行检测,分别得到它们的空气质量指数,然后以其平均值代表该市的空气质量指数。这属于抽样调查。
抽取样本的具体方式有多种。例如。可根据地图先把A市均匀地划分成一些面积较小的区域,再从中随机抽取若干小区域进行检测。
某检测小组将A市按占地面积均匀地划分为900个小区域。并从中抽取27个小区域(小区域总数的3%)组成样本。检测得出这27个小区域的空气质量指数分别如下:88,116,104,88,108,124,126,106,87,80,116,119,130,109,148,118,106,98,95,136,90,97,78,76,96,69,100。
这是抽样调查所得的原始数据。由此可进一步得出样本平均值104等再生数据。作为评估总体状况的参考依据。
2.列表画图,描述数据。
整理原始数据有利于发现其中包含的更多信息。例如,上面27个原始数据中,最小值为69,最大值为148。将它们按大小分为9组,落在各组中的数据的个数叫作各组的频数,频数可描述原始数据的分布规律。表1是频数分布表。
由频数分布表已能看出样本中的数据在各组中的分布情况,为使分布规律更直观地表现出来,可用统计图描述数据。频数分布直方图是一种常用的统计图,其横轴表示数据的取值,每个小长方形都对应一个小组,小长方形的下底对应相应分组的取值范围。底的长度等于组距;小长方形的高等于频数与组距的商。因此,小长方形的面积=底×高=组距×频数/组距=频数。等距分组时,通常直接用小长方形的高表示频数。
图1是与表1对应的频数分布直方图。将图中各个小长方形的上底的中点用线段顺次连接,所得的图形(如图2)也能表示频数分布规律。由图2可以看出,折线像一个“扣着的钟”。这显示出数据的分布大致关于某个与105接近的值(如样本平均数104)对称分布,越接近这个值,数据越多,越偏离这个值,数据越少。
3.借助样本,估计总体。
通过抽取样本,收集、整理、描述和分析原始数据,我们可以对总体情况进行估计。这是一种统计思维。根据上述样本的信息,我们可以把A市的空气质量指数估计为104。这反映出A市此时有轻度空气污染。这样的思考方法是“从部分认识整体,从特殊认识一般”的归纳法。
由于统计学研究的问题多具有随机性强的特征,总体中的各个个体之间一般都存在差异,即使是同一个体,在不同时间和条件下,其状态也会发生变化。不同的抽样方法可能得到不同的样本,而样本的个体与非样本的个体可能有差别。因此,不能认为样本信息百分之百地表示了总体的状况。另一方面,尽管个体之间不完全相同,但是由于它们处于同一总体之中,通常具有很多共性。抽取合适的样本可以在某种程度上反映出这些共性,而对共性的认识恰恰是估计总体的依据。例如,同一城市不同区域的空气质量可能不尽相同,但是相距不太远的地方。气象条件差异不大,它们的空气质量会比较接近,因此用合理的抽样调查得到的结果。就接近于总体的实际情况。
同学们在学习数据统计时。一定要注意体验收集、整理、描述和分析数据的全过程。结合实例加深认识,建立统计观念,提高数据处理能力。