论文部分内容阅读
摘要:随着统计软件的日益普及,P值大有取代传统假设检验方法的趋势。本文试说明P值的概念、含义、意义及利用P值进行决策的方法。本文最后给出P值在假设检验中的应用。
关键词:假设检验 P值 显著性水平 决策
一、引言
假设检验是推断统计中的一项重要内容。进行假设检验,常见到P 值( P-Value)。P 值是进行检验决策的另一个依据,是最常用的一个统计学指标,统计和计量软件输出结果都有P值,如SAS、SPSS和Eviews等。随着计算机技术的迅猛发展,特别是统计分析软件的普及,通过比较检验统计量与临界值大小的检验方法逐渐被P值技术所取代。因此了解P值的含义、计算和意义很有必要。为了更好地理解P 值,让我们回顾一下传统的假设检验方法。
二、假设检验
在假设检验中,由于随机性我们可能在决策上犯两类错误,一类是假设正确,但我们拒绝了假设,这类错误是“弃真”错误,被称为第一类错误;一类是假设不正确,但我们没拒绝假设,这类错误是“取伪”错误,被称为第二类错误。一般来说,在样本确定的情况下,任何决策无法同时避免两类错误的发生,即在避免第一类错误发生几率的同时,会增大第二类错误发生的几率;或者在避免第二类错误发生几率的同时,会增大第一类错误发生的几率。人们往往根据需要选择对哪类错误进行控制,以减少发生这类错误的几率。大多数情况下,人们会控制第一类错误发生的概率。
发生第一类错误的概率被称作显著性水平,一般用α表示,在进行假设检验时,是通过事先给定显著性水平α的值而来控制第一类错误发生的概率。在这个前提下,假设检验按下列步骤进行:
(1) 确定假设;
(2) 进行抽样,得到一定的数据;
(3) 根据假设条件,构造检验统计量,并根据抽样得到的数据计算检验统计量在这次抽样中的具体值;
(4) 依据所构造的检验统计量的抽样分布和给定的显著性水平,确定拒绝域及其临界值;
(5) 比较这次抽样中检验统计量的值与临界值的大小,如果检验统计量的值在拒绝域内,则拒绝假设。
由于检验是利用事先给定显著性水平的方法来控制犯错概率的,所以对于两个数据比较相近的假设检验,我们无法知道哪一个假设更容易犯错,即我们通过这种方法只能知道根据这次抽样而犯第一类错误的最大概率(即给定的显著性水平),而无法知道具体在多大概率水平上犯错。
计算P值能有效地解决这个问题,P值其实就是按照抽样分布计算的一个概率值,这个值是根据检验统计量计算出来的。通过直接比较P值与给定的显著性水平α的大小就可以知道是否拒绝假设,显然这就代替了比较检验统计量的值与临界值的大小的方法。而且通过这种方法,我们还可以知道在P值小于α的情况下犯第一类错误的实际概率是多少,P=0.03<α=0.05,那么拒绝假设,这一决策可能犯错的概率是0.03。需要指出的是,如果P>α,那么假设不被拒绝,在这种情况下,第一类错误并不会发生。
三、P值的概念
R.A.Fisher(1890-1962)作为一代假设检验理论的创立者,在假设检验中首先提出了P值的概念。他认为假设检验是一种程序,研究人员依照这一程序可以对某一总体参数形成一种判断。也就是说,他认为假设检验是数据分析的一种形式,是人们在研究中加入的主观信息。
P值就是当原假设为真时,检验统计量大于或等于实际观测值的概率。用数学的语言叙述如下:
设S为一样本统计量,对于某具体样本其取值为s,依据H1的不同,事件S≥|s|、S≤-|s|或|S|≥|s|的概率称为P值。
(一)P值的含义
从P值的数学语言描述可以看出,P值具有以下含义:
(1) 一种概率,一种在原假设为真的前提下出现观察样本以及更极端情况的概率。
(2) 拒绝原假设的最小显著性水平。
(3) 观察到的(实例的) 显著性水平。
(4) 表示对原假设的支持程度,是用于确定是否应该拒绝原假设的另一种方法。
(二)P值的意义
P值就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小,说明这种情况发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由越充分。总之,P值越小,表明结果越显著。但是检验的结果究竟是“显著的”、“中度显著的”还是“高度显著的”,需要我们自己根据P值的大小和实际问题来解决。
用P值代替检验统计量值作判定有以下几方面的优越性:
(1) 用P值作检验不需要查表,只需要直接用P值与显著性水平α相比,当P值≤α时,即拒绝原假设H0,当P值>α时,即不拒绝假设H0,而用检验统计量值(如t值)作检验需要查表求临界值。
(2) 用P值作检验具有可比性,而用t值作检验与自由度有关,可比性差。
(3) 用P值作检验可以准确地知道检验的显著性,实际上P值就是犯“弃真”错误的真实概率,也就是检验的真实显著性。
过去用P值作检验的缺点是难以手工计算,但现今计算机软件可以方便地算出P值。
(三)P 值的计算
一般地,用X 表示检验的统计量,当H0为真时,可由样本数据计算出该统计量的值C ,根据检验统计量X 的具体分布,可求出P 值。具体地说:
左侧检验的P 值为检验统计量X 小于样本统计值C 的概率,即P = P{ X < C};
右侧检验的P 值为检验统计量X 大于样本统计值C 的概率 P= P{ X > C};
双侧检验的P 值为检验统计量X 落在样本统计值C 为端点的尾部区域内的概率的2 倍: P = 2P{ X > C} (当C 位于分布曲线的右端时) 或P = 2P{ X< C} (当C 位于分布曲线的左端时) 。若X 服从正态分布和t分布,其分布曲线是关于纵轴对称的,故其P 值可表示为P = P{|X| > C} 。
(四)利用P 值进行决策
计算出P 值后,将给定的显著性水平α与P 值比较,就可得出检验的结论。
(1) 单侧检验
若P值≥α,不能拒绝H0;若P值<α,拒绝H0。
(2)双侧检验
若P值≥α/2, 不能拒绝H0;若P值<α/2,拒绝H0。
在实践中,当α=P 值时,也即统计量的值C 刚好等于临界值,为慎重起见,可增加样本容量,重新进行抽样检验。
四、P值的实际应用
以常见的硬币试验为例。每次试验投硬币100次,记下出现正面的次数。如果每次出现的正面数都是50,你就有把握认为这是一枚均匀的硬币;
正面数等于45或者等于55,你就有一点点的怀疑它是均匀的;
正面数等于30或者等于70,比较怀疑;
正面数等于10或者等于90,非常怀疑。
如上,正面数和反面数的差异越大,你就越有把握认为硬币不是均匀的(拒绝原假设)。重复一下P值的定义,“P值就是当原假设为真时,比所得到的样本观察结果更极端的结果出现的概率”,把这个定义套入上述硬币试验的场景中,比如你观察到“正面数是10或者90,正反面次数差异是80”:如果原假设为真(硬币是均匀的),P值就是你投100次,所得的正反面数差异大于80的概率。
如果这个P值很大,表明每次投100次均匀的硬币,经常有正反面差异大于80的情形出现。如果这个P值很小,表明每次投100次均匀的硬币,你很难看到正反面的差异会超过80。
如果一枚硬币投出的正反面次数,差异大于80,——这是一个“极端”的情形,只好认为原假设不对,硬币是有偏的。这里的逻辑是:在假定原假设为真的情况下,出现所看到的偏差(正反面差异为80),是这么地不可能(P值很小),以至于我们不再继续相信原假设。
五、结束语
P值是假设检验中的一个重要概念和技术,随着统计软件的日益普及,大有取代传统检验方法(即比较检验统计量的样本值与临界值)之势。在统计软件中,凡是涉及到假设检验的地方,如回归系数及方程的显著性检验,方差分析中均值是否相等的检验以及各种非参数检验方法等等,均可以给出P值。
参考文献:
[1] 维恩堡,常学将等译,《数理统计初级教程》,山西人民出版社,1986
[2] Prem S. Mann, Introductory Statistics, Johns Wiley & Sons, 2004
[3] 何晓群,《实用回归分析》,高等教育出版社,2008
关键词:假设检验 P值 显著性水平 决策
一、引言
假设检验是推断统计中的一项重要内容。进行假设检验,常见到P 值( P-Value)。P 值是进行检验决策的另一个依据,是最常用的一个统计学指标,统计和计量软件输出结果都有P值,如SAS、SPSS和Eviews等。随着计算机技术的迅猛发展,特别是统计分析软件的普及,通过比较检验统计量与临界值大小的检验方法逐渐被P值技术所取代。因此了解P值的含义、计算和意义很有必要。为了更好地理解P 值,让我们回顾一下传统的假设检验方法。
二、假设检验
在假设检验中,由于随机性我们可能在决策上犯两类错误,一类是假设正确,但我们拒绝了假设,这类错误是“弃真”错误,被称为第一类错误;一类是假设不正确,但我们没拒绝假设,这类错误是“取伪”错误,被称为第二类错误。一般来说,在样本确定的情况下,任何决策无法同时避免两类错误的发生,即在避免第一类错误发生几率的同时,会增大第二类错误发生的几率;或者在避免第二类错误发生几率的同时,会增大第一类错误发生的几率。人们往往根据需要选择对哪类错误进行控制,以减少发生这类错误的几率。大多数情况下,人们会控制第一类错误发生的概率。
发生第一类错误的概率被称作显著性水平,一般用α表示,在进行假设检验时,是通过事先给定显著性水平α的值而来控制第一类错误发生的概率。在这个前提下,假设检验按下列步骤进行:
(1) 确定假设;
(2) 进行抽样,得到一定的数据;
(3) 根据假设条件,构造检验统计量,并根据抽样得到的数据计算检验统计量在这次抽样中的具体值;
(4) 依据所构造的检验统计量的抽样分布和给定的显著性水平,确定拒绝域及其临界值;
(5) 比较这次抽样中检验统计量的值与临界值的大小,如果检验统计量的值在拒绝域内,则拒绝假设。
由于检验是利用事先给定显著性水平的方法来控制犯错概率的,所以对于两个数据比较相近的假设检验,我们无法知道哪一个假设更容易犯错,即我们通过这种方法只能知道根据这次抽样而犯第一类错误的最大概率(即给定的显著性水平),而无法知道具体在多大概率水平上犯错。
计算P值能有效地解决这个问题,P值其实就是按照抽样分布计算的一个概率值,这个值是根据检验统计量计算出来的。通过直接比较P值与给定的显著性水平α的大小就可以知道是否拒绝假设,显然这就代替了比较检验统计量的值与临界值的大小的方法。而且通过这种方法,我们还可以知道在P值小于α的情况下犯第一类错误的实际概率是多少,P=0.03<α=0.05,那么拒绝假设,这一决策可能犯错的概率是0.03。需要指出的是,如果P>α,那么假设不被拒绝,在这种情况下,第一类错误并不会发生。
三、P值的概念
R.A.Fisher(1890-1962)作为一代假设检验理论的创立者,在假设检验中首先提出了P值的概念。他认为假设检验是一种程序,研究人员依照这一程序可以对某一总体参数形成一种判断。也就是说,他认为假设检验是数据分析的一种形式,是人们在研究中加入的主观信息。
P值就是当原假设为真时,检验统计量大于或等于实际观测值的概率。用数学的语言叙述如下:
设S为一样本统计量,对于某具体样本其取值为s,依据H1的不同,事件S≥|s|、S≤-|s|或|S|≥|s|的概率称为P值。
(一)P值的含义
从P值的数学语言描述可以看出,P值具有以下含义:
(1) 一种概率,一种在原假设为真的前提下出现观察样本以及更极端情况的概率。
(2) 拒绝原假设的最小显著性水平。
(3) 观察到的(实例的) 显著性水平。
(4) 表示对原假设的支持程度,是用于确定是否应该拒绝原假设的另一种方法。
(二)P值的意义
P值就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小,说明这种情况发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由越充分。总之,P值越小,表明结果越显著。但是检验的结果究竟是“显著的”、“中度显著的”还是“高度显著的”,需要我们自己根据P值的大小和实际问题来解决。
用P值代替检验统计量值作判定有以下几方面的优越性:
(1) 用P值作检验不需要查表,只需要直接用P值与显著性水平α相比,当P值≤α时,即拒绝原假设H0,当P值>α时,即不拒绝假设H0,而用检验统计量值(如t值)作检验需要查表求临界值。
(2) 用P值作检验具有可比性,而用t值作检验与自由度有关,可比性差。
(3) 用P值作检验可以准确地知道检验的显著性,实际上P值就是犯“弃真”错误的真实概率,也就是检验的真实显著性。
过去用P值作检验的缺点是难以手工计算,但现今计算机软件可以方便地算出P值。
(三)P 值的计算
一般地,用X 表示检验的统计量,当H0为真时,可由样本数据计算出该统计量的值C ,根据检验统计量X 的具体分布,可求出P 值。具体地说:
左侧检验的P 值为检验统计量X 小于样本统计值C 的概率,即P = P{ X < C};
右侧检验的P 值为检验统计量X 大于样本统计值C 的概率 P= P{ X > C};
双侧检验的P 值为检验统计量X 落在样本统计值C 为端点的尾部区域内的概率的2 倍: P = 2P{ X > C} (当C 位于分布曲线的右端时) 或P = 2P{ X< C} (当C 位于分布曲线的左端时) 。若X 服从正态分布和t分布,其分布曲线是关于纵轴对称的,故其P 值可表示为P = P{|X| > C} 。
(四)利用P 值进行决策
计算出P 值后,将给定的显著性水平α与P 值比较,就可得出检验的结论。
(1) 单侧检验
若P值≥α,不能拒绝H0;若P值<α,拒绝H0。
(2)双侧检验
若P值≥α/2, 不能拒绝H0;若P值<α/2,拒绝H0。
在实践中,当α=P 值时,也即统计量的值C 刚好等于临界值,为慎重起见,可增加样本容量,重新进行抽样检验。
四、P值的实际应用
以常见的硬币试验为例。每次试验投硬币100次,记下出现正面的次数。如果每次出现的正面数都是50,你就有把握认为这是一枚均匀的硬币;
正面数等于45或者等于55,你就有一点点的怀疑它是均匀的;
正面数等于30或者等于70,比较怀疑;
正面数等于10或者等于90,非常怀疑。
如上,正面数和反面数的差异越大,你就越有把握认为硬币不是均匀的(拒绝原假设)。重复一下P值的定义,“P值就是当原假设为真时,比所得到的样本观察结果更极端的结果出现的概率”,把这个定义套入上述硬币试验的场景中,比如你观察到“正面数是10或者90,正反面次数差异是80”:如果原假设为真(硬币是均匀的),P值就是你投100次,所得的正反面数差异大于80的概率。
如果这个P值很大,表明每次投100次均匀的硬币,经常有正反面差异大于80的情形出现。如果这个P值很小,表明每次投100次均匀的硬币,你很难看到正反面的差异会超过80。
如果一枚硬币投出的正反面次数,差异大于80,——这是一个“极端”的情形,只好认为原假设不对,硬币是有偏的。这里的逻辑是:在假定原假设为真的情况下,出现所看到的偏差(正反面差异为80),是这么地不可能(P值很小),以至于我们不再继续相信原假设。
五、结束语
P值是假设检验中的一个重要概念和技术,随着统计软件的日益普及,大有取代传统检验方法(即比较检验统计量的样本值与临界值)之势。在统计软件中,凡是涉及到假设检验的地方,如回归系数及方程的显著性检验,方差分析中均值是否相等的检验以及各种非参数检验方法等等,均可以给出P值。
参考文献:
[1] 维恩堡,常学将等译,《数理统计初级教程》,山西人民出版社,1986
[2] Prem S. Mann, Introductory Statistics, Johns Wiley & Sons, 2004
[3] 何晓群,《实用回归分析》,高等教育出版社,2008