论文部分内容阅读
样本众数是一组数据中出现次数最多的数;样本中位数是将一组数据按大小次序依次排列,处于最中间的一个数据(或中间两个数据的平均数);样本平均数是一组数据的算术平均数.那么,数据7,8,6,8,6,5,8,10,7,4中的众数、中位数、平均数分别是多少?众数是8,中位数是7,平均数是6.9. 众数反映的往往是局部较集中的数据信息,中位数反映的是处于中间部位的数据信息,平均数反映的是所有数据的平均水平.
如果已知样本数据的频率分布直方图,又应该如何估计众数、中位数和平均数呢?
一、估计众数
例1 从参加历史知识竞赛的学生中抽出60名,将其成绩(均为整数)整理后画出的频率分布直方图如下,观察图形,估计这次历史知识竞赛成绩的众数.
解析 由图易知,分数介于69.5到79.5之间的最多,所以可以估计众数是[12(69.5+79.5)=74.5].
点拨 一般可以直接在频率分布直方图中找到最高的矩形,矩形中点横坐标即为众数估计值. 众数体现了样本数据的最大集中点,但是它只能表达样本数据中的很少一部分信息,它对其它数据信息的忽视使得其往往无法客观地反映出总体特征.
二、估计中位数
例2 某班50名学生举行一次英语测验(满分100分),根据成绩各分数段作出频率分布直方图如下,观察图形,估计这次测验的中位数.
[49.5][59.5][69.5][79.5][89.5][99.5][分数][0.02][0.024][0.032][0.016][0.008][0]
解析 在样本数据中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数. 而在频率分布直方图中,矩形的面积大小正好表示频率的大小,所以中位数左边和右边的直方图的面积应该相等,由此可以估计中位数的值.
观察该图,左边三个矩形的面积和为0.08+0.16+0.2=0.44,右边两个矩形的面积和为0.32+0.24=0.56,可知中位数应在(79.5,89.5)内,为使中位线左侧面积等于0.5,[(0.5-0.44)0.032=1.875],所以中位数为79.5+1.875=81.375,此时左右两边的面积各为0.5.
点拨 中位数是样本数据所占频率的等分线,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点. 另外由于样本数据的频率分布直方图只是直观地表明分布的形状,但是从直方图本身得不出原始的数据内容,所以由频率分布直方图中得到的中位数估计值往往与样本的实际中位数不一致.
三、估计平均数
例3 在某中学高三年级参加九月联考的同学中,用系统抽样法抽取了一个容量为200的学生总成绩的样本,根据分数段及各分数段人数(满分750分),作出频率分布直方图如下,试估计样本平均数并探究其与频率的关系.
解析 样本平均数是一组数据的算术平均数,由频率分布直方图所提供的信息来看,约300分的有0.001×100×200=20人,约400分的有0.0015×100×200=30人,以此类推,约500分的有80人,约600分的有40人,约700分的有30人,所以平均数应为
[300×20+400×30+500×80+600×40+700×30200=515,]
即300×0.1+400×0.15+500×0.4+600×0.2+700×0.15=515,也就是每个分数段的中间值与其相应的频率乘积的总和. 在直方图中,每个小矩形面积就是相应的频率,所以频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和,即为平均数的估计值.
例4 某公司的人员及月工资构成具体如下:
(1)指出这家公司人员月薪中的众数、中位数、平均数;
(2)你认为哪个统计量更能反映这个公司的工资水平?结合此问题谈一谈你的看法.
解析 (1)由表格可知:众数为8000,中位数为8800,平均数为12000.
(2)中位数或众数均能反映该公司的工资水平. 由于公司少数人的工资与大多数人的工资差别太大,导致平均数与中位数偏差较大,所以平均数不能客观真实地反映该公司的工资水平(平均月薪为12000,除总经理外,其余的人都在平均数以下).
点拨 由于平均数与每一个样本的数据有关,它描述了数据的平均水平,是一组数据的“重心”. 任何一个样本数据的改变都会引起平均数的改变,这是众数、中位数都不具有的性质. 正因如此,与它们相比,平均数可以反映出更多的关于样本数据全体的信息. 但平均数受数据中的极端值的影响较大,使平均数在估计样本时可靠性降低. 所以一般情况下,平均数可以反映出这组数据的一般情况,比如某班一次考试的平均成绩可以反映出该班学生该科的平均水平. 但特殊情况下,当样本数据质量较差时,使用平均数描述数据的中心位置可能与实际情况产生很大的误差.比如在体育、文艺等各种比赛的评分中,使用的是平均数,但是计分过程中采用“去掉一个最高分,去掉一个最低分”的方法,就是为了防止个别裁判给出过高或过低的分数对选手的比分造成较大的影响,从而降低误差,尽量保持公平性.
总而言之,这三个数字特征之间互有区别和联系:
1.众数、中位数、平均数都是描述一组样本数据集中趋势的量,平均数是其中最重要的量.
2.样本众数通常用来表示分类变量的中心值,比较容易计算,但是它只能表示样本数据中的很少一部分信息,也不一定唯一. 当一组数据中有不少数据多次重复出现时,众数往往更能反映问题.
3.样本中位数不受少数几个极端值的影响,也比较容易计算,它利用了样本数据排在中间的数据信息,可能出现在所给数据中,也可能不在所给数据中. 中位数仅与数据的排列顺序有关,某些数据的变动对中位数没有影响,所以当一组数据中的个别数据变化较大时,可以用中位数描述其集中趋势. 另外,当样本数据质量较差,比如存在一些错误数据(数据的录入错误或者测量错误等)时,也应该用抗极端数据强的中位数来表示数据的中心值.
4.样本平均数与每个样本数据有关,所以任何一个样本数据的改变都会引起平均数的改变,越“离群”的数据,对平均数的影响越大. 与众数、中位数相比,平均数代表了更多的关于样本数据全体的信息.
5.如果样本平均数大于样本中位数,说明数据中存在许多较大的极端值;反之,则说明数据中存在许多较小的极端值. 在实际应用中,如果能同时知道样本中位数和样本平均数,可以使我们了解样本数据中极端数据的信息,帮助我们作出决策.
6.使用者常常根据自己的利益去选取使用众数、中位数或平均数来描述数据的中心位置,从而产生一些误导作用.
如果已知样本数据的频率分布直方图,又应该如何估计众数、中位数和平均数呢?
一、估计众数
例1 从参加历史知识竞赛的学生中抽出60名,将其成绩(均为整数)整理后画出的频率分布直方图如下,观察图形,估计这次历史知识竞赛成绩的众数.
解析 由图易知,分数介于69.5到79.5之间的最多,所以可以估计众数是[12(69.5+79.5)=74.5].
点拨 一般可以直接在频率分布直方图中找到最高的矩形,矩形中点横坐标即为众数估计值. 众数体现了样本数据的最大集中点,但是它只能表达样本数据中的很少一部分信息,它对其它数据信息的忽视使得其往往无法客观地反映出总体特征.
二、估计中位数
例2 某班50名学生举行一次英语测验(满分100分),根据成绩各分数段作出频率分布直方图如下,观察图形,估计这次测验的中位数.
[49.5][59.5][69.5][79.5][89.5][99.5][分数][0.02][0.024][0.032][0.016][0.008][0]
解析 在样本数据中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数. 而在频率分布直方图中,矩形的面积大小正好表示频率的大小,所以中位数左边和右边的直方图的面积应该相等,由此可以估计中位数的值.
观察该图,左边三个矩形的面积和为0.08+0.16+0.2=0.44,右边两个矩形的面积和为0.32+0.24=0.56,可知中位数应在(79.5,89.5)内,为使中位线左侧面积等于0.5,[(0.5-0.44)0.032=1.875],所以中位数为79.5+1.875=81.375,此时左右两边的面积各为0.5.
点拨 中位数是样本数据所占频率的等分线,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点. 另外由于样本数据的频率分布直方图只是直观地表明分布的形状,但是从直方图本身得不出原始的数据内容,所以由频率分布直方图中得到的中位数估计值往往与样本的实际中位数不一致.
三、估计平均数
例3 在某中学高三年级参加九月联考的同学中,用系统抽样法抽取了一个容量为200的学生总成绩的样本,根据分数段及各分数段人数(满分750分),作出频率分布直方图如下,试估计样本平均数并探究其与频率的关系.
解析 样本平均数是一组数据的算术平均数,由频率分布直方图所提供的信息来看,约300分的有0.001×100×200=20人,约400分的有0.0015×100×200=30人,以此类推,约500分的有80人,约600分的有40人,约700分的有30人,所以平均数应为
[300×20+400×30+500×80+600×40+700×30200=515,]
即300×0.1+400×0.15+500×0.4+600×0.2+700×0.15=515,也就是每个分数段的中间值与其相应的频率乘积的总和. 在直方图中,每个小矩形面积就是相应的频率,所以频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和,即为平均数的估计值.
例4 某公司的人员及月工资构成具体如下:
(1)指出这家公司人员月薪中的众数、中位数、平均数;
(2)你认为哪个统计量更能反映这个公司的工资水平?结合此问题谈一谈你的看法.
解析 (1)由表格可知:众数为8000,中位数为8800,平均数为12000.
(2)中位数或众数均能反映该公司的工资水平. 由于公司少数人的工资与大多数人的工资差别太大,导致平均数与中位数偏差较大,所以平均数不能客观真实地反映该公司的工资水平(平均月薪为12000,除总经理外,其余的人都在平均数以下).
点拨 由于平均数与每一个样本的数据有关,它描述了数据的平均水平,是一组数据的“重心”. 任何一个样本数据的改变都会引起平均数的改变,这是众数、中位数都不具有的性质. 正因如此,与它们相比,平均数可以反映出更多的关于样本数据全体的信息. 但平均数受数据中的极端值的影响较大,使平均数在估计样本时可靠性降低. 所以一般情况下,平均数可以反映出这组数据的一般情况,比如某班一次考试的平均成绩可以反映出该班学生该科的平均水平. 但特殊情况下,当样本数据质量较差时,使用平均数描述数据的中心位置可能与实际情况产生很大的误差.比如在体育、文艺等各种比赛的评分中,使用的是平均数,但是计分过程中采用“去掉一个最高分,去掉一个最低分”的方法,就是为了防止个别裁判给出过高或过低的分数对选手的比分造成较大的影响,从而降低误差,尽量保持公平性.
总而言之,这三个数字特征之间互有区别和联系:
1.众数、中位数、平均数都是描述一组样本数据集中趋势的量,平均数是其中最重要的量.
2.样本众数通常用来表示分类变量的中心值,比较容易计算,但是它只能表示样本数据中的很少一部分信息,也不一定唯一. 当一组数据中有不少数据多次重复出现时,众数往往更能反映问题.
3.样本中位数不受少数几个极端值的影响,也比较容易计算,它利用了样本数据排在中间的数据信息,可能出现在所给数据中,也可能不在所给数据中. 中位数仅与数据的排列顺序有关,某些数据的变动对中位数没有影响,所以当一组数据中的个别数据变化较大时,可以用中位数描述其集中趋势. 另外,当样本数据质量较差,比如存在一些错误数据(数据的录入错误或者测量错误等)时,也应该用抗极端数据强的中位数来表示数据的中心值.
4.样本平均数与每个样本数据有关,所以任何一个样本数据的改变都会引起平均数的改变,越“离群”的数据,对平均数的影响越大. 与众数、中位数相比,平均数代表了更多的关于样本数据全体的信息.
5.如果样本平均数大于样本中位数,说明数据中存在许多较大的极端值;反之,则说明数据中存在许多较小的极端值. 在实际应用中,如果能同时知道样本中位数和样本平均数,可以使我们了解样本数据中极端数据的信息,帮助我们作出决策.
6.使用者常常根据自己的利益去选取使用众数、中位数或平均数来描述数据的中心位置,从而产生一些误导作用.