论文部分内容阅读
一、两个分类变量是否有关的粗略估计
1.三维柱形图:如果列联表1的三维柱形图如下图
由各小柱形表示的频数可知,对角线上的频数的积的差的绝对值[|ad-bc|]较大,说明两分类变量[X]和[Y]是有关的,否则是无关的.
要点:一方面考查对角线频数之差,更重要的一方面是提供了构造随机变量进行独立性检验的思想方法.
2.二维条形图(相应于上面的三维柱形图而画)
由深、浅染色的高可知两种情况下所占比例,由数据可知[aa+b]要比[cc+d]小得多,由于差距较大,说明两分类变量[X]和[Y]有关系的可能性较大,两个比值相差越大两分类变量[X]和[Y]有关的可能性也越大的.否则是无关的.
要点:通过图形以及所占比例直观地、粗略地观察是否有关,更重要的一方面是提供了构造随机变量进行独立性检验的思想方法.
3.等高条形图(相应于上面的条形图而画)
由深、浅染色的高可知两种情况下的百分比;另一方面,数据[aa+b]%要比[cc+d%]小得多,说明两分类变量[X]和[Y]有关系的可能性较大,否则是无关的.
要点:直观地看出在两类分类变量频数相等的情况下,各部分所占的比例情况,是在图2的基础上换一个角度来理解.
二、独立性检验的基本思想
上面通过分析数据与图形,得出这个估计是粗略的,因为我们说的“大得多”“小得多”,到底有多大的差距?也就是说得到的结论是直观上的印象,其实与是否有关还是有较大的差距的.但是上面的分析给了我们一种重要的思想方法.
下面从理论上说明两类分类变量是否有关,请同学们从中体会其思想方法.
1.基本思想与图形的联系
假设两类分类变量是无关的,由上面的条形图2可知,如下的比应差不多.
[aa+b][≈][cc+d][?][|ad-bc|≈0]
(这里可以结合三维柱形图的对角线加以理解)
构造随机变量[K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)](其中[n=a+b+c+d]).
(此公式如何记住,其特点是什么?结合[2×2]列联表1理解)
显然所构造的随机变量与[|ad-bc|≈0]大小具有一致性.
2.独立性检验的思想方法
如果[K2]的观察值较大,说明其发生(无关系)的概率很小,此时不接受假设,也就是两分类变量是有关系的(称小概率事件发生). 如果[K2]的观察值较小,此时接受假设,说明两分类变量是无关系的.其思想方法类似于反证法.
3.[K2]的观察值[k]常与以下几个临界值加以比较
如果[k>2.706],就有[9000]的把握認为两分类变量[X]和[Y]是有关系;
如果[k>3.841],就有[9500]的把握认为两分类变量[X]和[Y]是有关系;
如果[k>6.635],就有[9900]的把握认为两分类变量[X]和[Y]是有关系;
如果[k≤2.706],就认为没有充分的证据说明变量[X]和[Y]是有关系.
像这样利用随机变量来确定在多大程度上可以因为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.
三、模拟题精析
例1 为了研究玉米品种对产量的影响,某农科院对一块试验田种植的一批玉米共10000株的生长情况进行研究,现采用分层抽样方法抽取50株作为样本,统计结果如下:
[\&高茎\&矮茎\&合计\&圆粒\&11\&19\&30\&皱粒\&13\&7\&20\&合计\&24\&26\&50\&]
(1)现采用分层抽样的方法,从该样本中取出10株玉米,再从这10株玉米中随机选出3株,求选出的3株中既有圆粒玉米又有皱粒玉米的概率;
(2)根据对玉米生长情况作出的统计,是否能在犯错误的概率不超过0.050的前提下认为玉米的圆粒与玉米的高茎有关?
下面的临界值表和公式可供参考:
[[P(K2≥k)]\&0.15\&0.10\&0.05\&0.025\&0.010\&0.005\&0.001\&[k]\&2.072\&2.706\&3.841\&5.024\&6.635\&7.879\&10.828\&]
[K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)],其中[n=a+b+c+d].
分析 (1)现采用分层抽样的方法,从样本中取出的10株玉米中圆粒的有6株,皱粒的有4株,故可求从中再次选出3株时,既有圆粒又有皱粒的概率;
(2)代入公式计算[k]的值,和临界值表比对后即可得到答案.
解 (1)现采用分层抽样的方法,从样本中取出的10株玉米中圆粒的有6株,皱粒的有4株,所以从中再次选出3株时,既有圆粒又有皱粒的概率为[P=C16C24+C26C14C310=45].
(2)根据已知列联表知,
[K2=50×(11×7-13×19)230×20×24×26≈3.860>3.841].
又[P(K2≥3.841)=0.050],
因此能在犯错误的概率不超过0.050的前提下认为玉米的圆粒与玉米的高茎有关.
点拨 本题是一个独立性检验,我们可以利用临界值的大小来决定是否拒绝原来的统计假设,若值较大就拒绝假设,即拒绝两个事件无关.
例2 为了研究“教学方式”对教学质量的影响,某高中数学老师分别用两种不同的教学方式对入学数学平均分数和优秀率都相同的甲、乙两个高一新班进行教学(勤奋程度和自觉性都一样).以下茎叶图为甲、乙两班(每班均为20人)学生的数学期末考试成绩. [0
7 7 3 2
8 4 2 2 1 0
9 8 7 7 6
8 8 7 7][9
8
7
6
5][0 1 5 6 8
0 1 2 5 6 6 8 9
1 3 5
5 7 8 9][甲 乙]
(1)現从甲班数学成绩不低于80分的同学中随机抽取两名同学,求成绩为87分的同学至少有一名被抽中的概率;
(2)学校规定:成绩不低于75分的为优秀.请填写下面的2×2列联表,并判断有多大把握认为“成绩优秀与教学方式有关”.
[\&甲班\&乙班\&合计\&优秀\&\&\&\&不优秀\&\&\&\&合计\&\&\&\&]
下面临界值表仅供参考:
[[P(K2≥k)]\&0.15\&0.10\&0.05\&0.025\&0.010\&0.005\&0.001\&[k]\&2.072\&2.706\&3.841\&5.024\&6.635\&7.879\&10.828\&]
(参考公式:[K2=n(n11n22-n12n21)2n1+n2+n+1n+2])
分析 (1)先求得甲班数学成绩不低于80分的同学人数及成绩为87分的同学人数,利用排列组合求得基本事件的个数,利用古典概型的概率公式计算.
(2)根据茎叶图分别求出甲、乙班优秀的人数与不优秀的人数,列出列联表,利用相关指数公式计算K2的观测值,比较与临界值的大小,判断成绩优秀与教学方式有关的可靠性程度.
解 (1)记成绩为87分的同学为[A,B],其他不低于80分的同学为[C,D,E],“从甲班数学成绩不低于80分的同学中随机抽取两名同学”的一切可能结果组成的基本事件有[(A,B)],[(A,C)],[(A,D)],[(A,E)],[(B,C)],[(B,D)],[(B,E)],[(C,D)],[(C,E)],[(D,E)],共10个.
“抽到至少有一个87分的同学”所组成的基本事件有[(A,B)],[(A,C)],[(A,D)],[(A,E)],[(B,C)],[(B,D)],[(B,E)],共7个,所以[P=710].
(2) 2×2列联表
[\&甲班\&乙班\&合计\&优秀\&6\&14\&20\&不优秀\&14\&6\&20\&合计\&20\&20\&40\&]
[K2=40×(6×6-14×14)220×20×20×20=6.4>5.024].
因此,我们有97.5%的把握认为成绩优秀与教学方式有关.
点拨 本题考查了由茎叶图求分类变量的列联表,及根据列联表计算相关指数[K2]的观测值,考查了古典概型的概率计算. 由公式计算相关指数[K2]的观测值并由观测值判断成绩优秀与教学方式有关的可靠性程度是解题的关键.
1.三维柱形图:如果列联表1的三维柱形图如下图
由各小柱形表示的频数可知,对角线上的频数的积的差的绝对值[|ad-bc|]较大,说明两分类变量[X]和[Y]是有关的,否则是无关的.
要点:一方面考查对角线频数之差,更重要的一方面是提供了构造随机变量进行独立性检验的思想方法.
2.二维条形图(相应于上面的三维柱形图而画)
由深、浅染色的高可知两种情况下所占比例,由数据可知[aa+b]要比[cc+d]小得多,由于差距较大,说明两分类变量[X]和[Y]有关系的可能性较大,两个比值相差越大两分类变量[X]和[Y]有关的可能性也越大的.否则是无关的.
要点:通过图形以及所占比例直观地、粗略地观察是否有关,更重要的一方面是提供了构造随机变量进行独立性检验的思想方法.
3.等高条形图(相应于上面的条形图而画)
由深、浅染色的高可知两种情况下的百分比;另一方面,数据[aa+b]%要比[cc+d%]小得多,说明两分类变量[X]和[Y]有关系的可能性较大,否则是无关的.
要点:直观地看出在两类分类变量频数相等的情况下,各部分所占的比例情况,是在图2的基础上换一个角度来理解.
二、独立性检验的基本思想
上面通过分析数据与图形,得出这个估计是粗略的,因为我们说的“大得多”“小得多”,到底有多大的差距?也就是说得到的结论是直观上的印象,其实与是否有关还是有较大的差距的.但是上面的分析给了我们一种重要的思想方法.
下面从理论上说明两类分类变量是否有关,请同学们从中体会其思想方法.
1.基本思想与图形的联系
假设两类分类变量是无关的,由上面的条形图2可知,如下的比应差不多.
[aa+b][≈][cc+d][?][|ad-bc|≈0]
(这里可以结合三维柱形图的对角线加以理解)
构造随机变量[K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)](其中[n=a+b+c+d]).
(此公式如何记住,其特点是什么?结合[2×2]列联表1理解)
显然所构造的随机变量与[|ad-bc|≈0]大小具有一致性.
2.独立性检验的思想方法
如果[K2]的观察值较大,说明其发生(无关系)的概率很小,此时不接受假设,也就是两分类变量是有关系的(称小概率事件发生). 如果[K2]的观察值较小,此时接受假设,说明两分类变量是无关系的.其思想方法类似于反证法.
3.[K2]的观察值[k]常与以下几个临界值加以比较
如果[k>2.706],就有[9000]的把握認为两分类变量[X]和[Y]是有关系;
如果[k>3.841],就有[9500]的把握认为两分类变量[X]和[Y]是有关系;
如果[k>6.635],就有[9900]的把握认为两分类变量[X]和[Y]是有关系;
如果[k≤2.706],就认为没有充分的证据说明变量[X]和[Y]是有关系.
像这样利用随机变量来确定在多大程度上可以因为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.
三、模拟题精析
例1 为了研究玉米品种对产量的影响,某农科院对一块试验田种植的一批玉米共10000株的生长情况进行研究,现采用分层抽样方法抽取50株作为样本,统计结果如下:
[\&高茎\&矮茎\&合计\&圆粒\&11\&19\&30\&皱粒\&13\&7\&20\&合计\&24\&26\&50\&]
(1)现采用分层抽样的方法,从该样本中取出10株玉米,再从这10株玉米中随机选出3株,求选出的3株中既有圆粒玉米又有皱粒玉米的概率;
(2)根据对玉米生长情况作出的统计,是否能在犯错误的概率不超过0.050的前提下认为玉米的圆粒与玉米的高茎有关?
下面的临界值表和公式可供参考:
[[P(K2≥k)]\&0.15\&0.10\&0.05\&0.025\&0.010\&0.005\&0.001\&[k]\&2.072\&2.706\&3.841\&5.024\&6.635\&7.879\&10.828\&]
[K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)],其中[n=a+b+c+d].
分析 (1)现采用分层抽样的方法,从样本中取出的10株玉米中圆粒的有6株,皱粒的有4株,故可求从中再次选出3株时,既有圆粒又有皱粒的概率;
(2)代入公式计算[k]的值,和临界值表比对后即可得到答案.
解 (1)现采用分层抽样的方法,从样本中取出的10株玉米中圆粒的有6株,皱粒的有4株,所以从中再次选出3株时,既有圆粒又有皱粒的概率为[P=C16C24+C26C14C310=45].
(2)根据已知列联表知,
[K2=50×(11×7-13×19)230×20×24×26≈3.860>3.841].
又[P(K2≥3.841)=0.050],
因此能在犯错误的概率不超过0.050的前提下认为玉米的圆粒与玉米的高茎有关.
点拨 本题是一个独立性检验,我们可以利用临界值的大小来决定是否拒绝原来的统计假设,若值较大就拒绝假设,即拒绝两个事件无关.
例2 为了研究“教学方式”对教学质量的影响,某高中数学老师分别用两种不同的教学方式对入学数学平均分数和优秀率都相同的甲、乙两个高一新班进行教学(勤奋程度和自觉性都一样).以下茎叶图为甲、乙两班(每班均为20人)学生的数学期末考试成绩. [0
7 7 3 2
8 4 2 2 1 0
9 8 7 7 6
8 8 7 7][9
8
7
6
5][0 1 5 6 8
0 1 2 5 6 6 8 9
1 3 5
5 7 8 9][甲 乙]
(1)現从甲班数学成绩不低于80分的同学中随机抽取两名同学,求成绩为87分的同学至少有一名被抽中的概率;
(2)学校规定:成绩不低于75分的为优秀.请填写下面的2×2列联表,并判断有多大把握认为“成绩优秀与教学方式有关”.
[\&甲班\&乙班\&合计\&优秀\&\&\&\&不优秀\&\&\&\&合计\&\&\&\&]
下面临界值表仅供参考:
[[P(K2≥k)]\&0.15\&0.10\&0.05\&0.025\&0.010\&0.005\&0.001\&[k]\&2.072\&2.706\&3.841\&5.024\&6.635\&7.879\&10.828\&]
(参考公式:[K2=n(n11n22-n12n21)2n1+n2+n+1n+2])
分析 (1)先求得甲班数学成绩不低于80分的同学人数及成绩为87分的同学人数,利用排列组合求得基本事件的个数,利用古典概型的概率公式计算.
(2)根据茎叶图分别求出甲、乙班优秀的人数与不优秀的人数,列出列联表,利用相关指数公式计算K2的观测值,比较与临界值的大小,判断成绩优秀与教学方式有关的可靠性程度.
解 (1)记成绩为87分的同学为[A,B],其他不低于80分的同学为[C,D,E],“从甲班数学成绩不低于80分的同学中随机抽取两名同学”的一切可能结果组成的基本事件有[(A,B)],[(A,C)],[(A,D)],[(A,E)],[(B,C)],[(B,D)],[(B,E)],[(C,D)],[(C,E)],[(D,E)],共10个.
“抽到至少有一个87分的同学”所组成的基本事件有[(A,B)],[(A,C)],[(A,D)],[(A,E)],[(B,C)],[(B,D)],[(B,E)],共7个,所以[P=710].
(2) 2×2列联表
[\&甲班\&乙班\&合计\&优秀\&6\&14\&20\&不优秀\&14\&6\&20\&合计\&20\&20\&40\&]
[K2=40×(6×6-14×14)220×20×20×20=6.4>5.024].
因此,我们有97.5%的把握认为成绩优秀与教学方式有关.
点拨 本题考查了由茎叶图求分类变量的列联表,及根据列联表计算相关指数[K2]的观测值,考查了古典概型的概率计算. 由公式计算相关指数[K2]的观测值并由观测值判断成绩优秀与教学方式有关的可靠性程度是解题的关键.