论文部分内容阅读
摘要:稳健统计学所针对的是统计学中一个普遍而实际的问题,这套方法无论是对科学研究还是对相关部门经济政策的制定都有着重要的理论意义和现实意义,因此笔者认为它的发展前景是可观的。
关键词:稳健统计;理论;应用
统计学作为一门应用性很强的工具性学科,其目的或任务是从众多数据中挖掘有用的信息,然后得出有关这个领域的某些特征或结论,进而用以指导实践,来“创造”更好的数据。统计的结果一方面依赖于观测数据,另一方面依赖于对所研究总体某些特性的假设,如分布形式,独立性等等。稳健统计学旨在克服当数据显著偏离假设时传统统计学所面临的一些困难。稳健统计学早在十九世纪初就有萌芽,从二十世纪六十年代起随着电子技术的迅速发展而倍受重视,如今已成为统计学中的一个活跃的研究领域。国际上统计学界的杂志及论文集上,有关稳健统计学的文章源源不断。许多传统的统计方法已有了相应的稳健方法。这些方法被逐渐应用到医学、生物学、化学、及地质学等领域,有的并被用于日常生产之中。但是由于稳健统计学本身的相对复杂性,目前我国学者对稳健统计学的研究还很少,而稳健统计学所针对的是统计学中一个普遍而实际的问题,这套方法无论是对科学研究还是对相关部門经济政策的制定都有着重要的理论意义和现实意义,因此笔者认为它的发展前景是可观的。
一、稳健统计的理论
稳健统计与其说是一种统计方法,还不如说是一种判断和改进统计估计的一个标准。我们知道,对总体的参数,我们可以用不同的估计量对其进行估计,但估计的结果是不同的,有的效果较好,有的效果较差。这些估计效果的差异,除了估计量本身的性质因素影响作用外,还有一个因素的影响即估计量对统计资料的敏感程度问题。如果估计量对统计资料的敏感程度强,那么这样的估计量的估计结果将会不稳定,反之,如果估计量对统计资料的敏感性弱,那么它的估计效果便会比较稳定。例如,有二组数:5、5.1、5.2、5.3、5.4;5、5.1、5.2、5.3、5.4。这两组数中的中位数都是5.2,可是两组数的平均数差别很大,一个是5.2,另一个是14.92。如果用平均数作为总体均值的估计,那么当把数列中某一数搞错了的时候,它的估计结果就会失真,相反,如果用中位数作为总体平均值的估计,即使出现本例这样的情况,也不会影响统计估计的结果。这表明,中位数估计量要比平均数估计量稳健得多。
所谓的稳健统计,就是指估计量对总体参数的估计不随统计资料中少数异常值的出现,而发生较大的失真现象。稳健性是改进统计估计的基本思路之一。这一办法,在我们日常生活中,已经邮很多的接触了。例如,文艺表演比赛中的评分办法,去掉几个最高分几个最低分,然后剩下的有效得分进行平均,作为演员的最后得分,就是稳健思想的生动应用。稳健性的提出,对统计估计提出了新的高标准要求,增加了筛选估计量的难度,但也会促进统计估计水平的再度提高。根据目前的文献看来,许多传统的统计方法都有了稳健方法。稳健统计在医学、化学、生物学、工农业生产中,都得到了较为广泛的应用。可以肯定,稳健统计的前景可观,具有很大的魅力。
二、稳健性与效率
理论研究表明:像检验(见假设检验、方差分析)之类的与总体方差有关的统计方法,其性能多与总体的正态性有较强的依赖关系,稳健性较差;而与总体均值有关的统计方法,如检验之类,稳健性相对说来要好一些。
对异常数据的稳健性
由于在大量次数的试验或观测中,很难完全避免出现个别疏忽,因此,要使统计方法有较好的稳健性,就必须要求,它所依据的统计量不受个别异常数据的太大影响。一个典型的例子是用样本均值或样本中位数(见统计量)去估计正态分布的均值,前者受个别异常数据的影响较大,而后者则几乎不受到影响,故从稳健性角度看,后者优于前者。介于两者之间的有所谓修削平均,即给定自然数</2(为样本大小),把全部样本中最大的个和最小的个舍弃,余下的2个的算术平均值称为修削平均值,愈大,修削愈多,如果有少量异常数据混入,则在修削时被舍弃了,因而不致造成危害。这是一个较早的稳健统计方法,但被广泛使用。
为获得对异常数据的稳健性,有两个途径:一是设计出有效的方法以发现数据中的异常值,从而把它们剔除。这已成为数理统计学中的一个重要课题,积累了不少成果。另一个途径是设计这样的方法,使样本中的个别数据不致对最终结果有过大的影响,如用最小二乘法求参数估计时,是根据使偏差平方和为最小的原则,从而若有个别偏差特大的数据,其对结果的影响很大,故基于最小二乘法的统计方法的稳健性一般较差,若改用绝对偏差和最小的原则,则稳健性有所改善。
使统计方法具有稳健性,在一定的意义上可以看成是一种“保险”:付出一定的保险费,以避免遭受重大损失,保险费就表现为方法在效率上的降低。例如,用样本中位数估计正态分布均值,在稳健性上比用样本均值好;但如情况没有异常,即总体分布确为正态,并且无异常数据,则样本中位数以方差大小衡量的效率,约只有样本均值的三分之二。稳健统计的一个任务,就是设计有稳健性的统计方法,而使其在效率上的损失尽可能小。
与非参数统计的关系非参数统计方法往往有较好的稳健性,而一些稳健统计方法常要用到非参数性质的统计量,因此二者关系密切。但从性质上看二者是不同的:非参数统计中,对总体分布的假定很少;而稳健统计则一般是从一个确定的参数性模型(如正态模型)出发,考虑当模型条件有少许扰动时的后果。因此,稳健统计本质上属于参数统计的范畴。
关键词:稳健统计;理论;应用
统计学作为一门应用性很强的工具性学科,其目的或任务是从众多数据中挖掘有用的信息,然后得出有关这个领域的某些特征或结论,进而用以指导实践,来“创造”更好的数据。统计的结果一方面依赖于观测数据,另一方面依赖于对所研究总体某些特性的假设,如分布形式,独立性等等。稳健统计学旨在克服当数据显著偏离假设时传统统计学所面临的一些困难。稳健统计学早在十九世纪初就有萌芽,从二十世纪六十年代起随着电子技术的迅速发展而倍受重视,如今已成为统计学中的一个活跃的研究领域。国际上统计学界的杂志及论文集上,有关稳健统计学的文章源源不断。许多传统的统计方法已有了相应的稳健方法。这些方法被逐渐应用到医学、生物学、化学、及地质学等领域,有的并被用于日常生产之中。但是由于稳健统计学本身的相对复杂性,目前我国学者对稳健统计学的研究还很少,而稳健统计学所针对的是统计学中一个普遍而实际的问题,这套方法无论是对科学研究还是对相关部門经济政策的制定都有着重要的理论意义和现实意义,因此笔者认为它的发展前景是可观的。
一、稳健统计的理论
稳健统计与其说是一种统计方法,还不如说是一种判断和改进统计估计的一个标准。我们知道,对总体的参数,我们可以用不同的估计量对其进行估计,但估计的结果是不同的,有的效果较好,有的效果较差。这些估计效果的差异,除了估计量本身的性质因素影响作用外,还有一个因素的影响即估计量对统计资料的敏感程度问题。如果估计量对统计资料的敏感程度强,那么这样的估计量的估计结果将会不稳定,反之,如果估计量对统计资料的敏感性弱,那么它的估计效果便会比较稳定。例如,有二组数:5、5.1、5.2、5.3、5.4;5、5.1、5.2、5.3、5.4。这两组数中的中位数都是5.2,可是两组数的平均数差别很大,一个是5.2,另一个是14.92。如果用平均数作为总体均值的估计,那么当把数列中某一数搞错了的时候,它的估计结果就会失真,相反,如果用中位数作为总体平均值的估计,即使出现本例这样的情况,也不会影响统计估计的结果。这表明,中位数估计量要比平均数估计量稳健得多。
所谓的稳健统计,就是指估计量对总体参数的估计不随统计资料中少数异常值的出现,而发生较大的失真现象。稳健性是改进统计估计的基本思路之一。这一办法,在我们日常生活中,已经邮很多的接触了。例如,文艺表演比赛中的评分办法,去掉几个最高分几个最低分,然后剩下的有效得分进行平均,作为演员的最后得分,就是稳健思想的生动应用。稳健性的提出,对统计估计提出了新的高标准要求,增加了筛选估计量的难度,但也会促进统计估计水平的再度提高。根据目前的文献看来,许多传统的统计方法都有了稳健方法。稳健统计在医学、化学、生物学、工农业生产中,都得到了较为广泛的应用。可以肯定,稳健统计的前景可观,具有很大的魅力。
二、稳健性与效率
理论研究表明:像检验(见假设检验、方差分析)之类的与总体方差有关的统计方法,其性能多与总体的正态性有较强的依赖关系,稳健性较差;而与总体均值有关的统计方法,如检验之类,稳健性相对说来要好一些。
对异常数据的稳健性
由于在大量次数的试验或观测中,很难完全避免出现个别疏忽,因此,要使统计方法有较好的稳健性,就必须要求,它所依据的统计量不受个别异常数据的太大影响。一个典型的例子是用样本均值或样本中位数(见统计量)去估计正态分布的均值,前者受个别异常数据的影响较大,而后者则几乎不受到影响,故从稳健性角度看,后者优于前者。介于两者之间的有所谓修削平均,即给定自然数</2(为样本大小),把全部样本中最大的个和最小的个舍弃,余下的2个的算术平均值称为修削平均值,愈大,修削愈多,如果有少量异常数据混入,则在修削时被舍弃了,因而不致造成危害。这是一个较早的稳健统计方法,但被广泛使用。
为获得对异常数据的稳健性,有两个途径:一是设计出有效的方法以发现数据中的异常值,从而把它们剔除。这已成为数理统计学中的一个重要课题,积累了不少成果。另一个途径是设计这样的方法,使样本中的个别数据不致对最终结果有过大的影响,如用最小二乘法求参数估计时,是根据使偏差平方和为最小的原则,从而若有个别偏差特大的数据,其对结果的影响很大,故基于最小二乘法的统计方法的稳健性一般较差,若改用绝对偏差和最小的原则,则稳健性有所改善。
使统计方法具有稳健性,在一定的意义上可以看成是一种“保险”:付出一定的保险费,以避免遭受重大损失,保险费就表现为方法在效率上的降低。例如,用样本中位数估计正态分布均值,在稳健性上比用样本均值好;但如情况没有异常,即总体分布确为正态,并且无异常数据,则样本中位数以方差大小衡量的效率,约只有样本均值的三分之二。稳健统计的一个任务,就是设计有稳健性的统计方法,而使其在效率上的损失尽可能小。
与非参数统计的关系非参数统计方法往往有较好的稳健性,而一些稳健统计方法常要用到非参数性质的统计量,因此二者关系密切。但从性质上看二者是不同的:非参数统计中,对总体分布的假定很少;而稳健统计则一般是从一个确定的参数性模型(如正态模型)出发,考虑当模型条件有少许扰动时的后果。因此,稳健统计本质上属于参数统计的范畴。