论文部分内容阅读
[摘 要] 校准估计是运用样本的加权和来估计总体总值,在校准估计中最重要的就是求解出权重,但在抽取的样本中常常会存在异常值,会对所需求解的权重产生一定的影响,进而会影响估计量的好坏,所以为了提高校准估计量的精度,我们用回归诊断的方法对抽取的样本中的异常值进行判断,并由此把样本分为异常集和正常集,然后用正常集来估计总体。
[关键词]校准估计;异常值;精度
中图分类号:S298.3 文献标识码:A 文章编号:1009-914X(2018)02-0302-01
1 引言
Deville和Srndal于1992年首次提出“校准估计”的概念[1],Alain Théberge[2]通过仿真模拟对不同种类的估计量进行比较研究,发现校准估计量的均方误差通常要比Horvitz-Thompson估计量的均方误差小。很多国家统计机构将校准估计的思想运用于大范围的调查中,并且开发了相应的软件为实践应用提供了便利,那么当数据中存在异常值是否会影响校准估计量的精度?如果会影响,应该怎样处理数据中的异常值来提高估计量的精度呢?接下来就是要解决这些问题。
2 样本中的异常值的诊断和检验
在线性回归模型中,我们可以利用回归诊断来探查对参数估计或预测有异常大的影响的数据,这样的数据称为强影响数据,因为一组数据对应空间中的一个点,所以也成为强影响点。考虑线性回归模型[7]
3 校准估计
3.1 校准估计量
Deville和Srndal最早提出校准估计的概念,其核心思想是利用辅助信息在约束条件下得到校准权重,从而得到加权估计量。校准估计的一般程序是:首先在π估计体系[9]下确定原始设计权数,其次在辅助变量的样本加权总量估计值与总体总量相等的条件下,使得校准权重和设计权重(为总体单位k的入样概率)之间的距离最小,最后得到校准估计量,这样得到的校准估计量具有渐近设计无偏性、设计一致性,方差也比Horvitz-Thompson估计量(下简称H-T)要小。
在校准估计量的形式中,衡量初始权重和校准权重距离的距离函数通常满足的形式为其中是一个严格单调递增的单变量函数,并且Deville和Srndal[1]指出符合条件的距离函数所得到的校准估计量都是一致的且渐进无偏的。
3.2 校准估计的步骤
经过对样本中的异常值的判断和检验后,可以把样本s分为异常集和正常集,我们选用正常集r的数据来估计总体。首先应该确保正常集的样本加权和等于总体总值,即,其次在使用線性校准估计时,距离函数的形式为,取,则距离函数为,然后则可以得到校准估计量为:
4 实际数据分析
下面,我们通过实际数据来说明在校准估计中处理异常值的应用。现欲估计的是某省的1025个高新公司的第三年总资产的总和,故为目标变量,辅助信息为每个公司的第一年销售收入,第二年销售收入,第三年销售收入。
为说明校准估计的具体应用,我们用简单随机抽样的方法从上述总体中抽取容量为130的样本,这130组数据可以建立线性回归模型,通过回归诊断可以判断有10组数据表现异常,因为它们的残差 和学生化残差会明显地大于其它点对应量的绝对值,而且它们的也明显比较大,并且通过异常点检验,可以得到它们的统计量大于临界值,则可以确定这10组数据为异常点,则剩下的120组数据为正常集。样本各个变量的特征见表1。为验证样本中辅助信息的有效性,我们可以计算辅助变量与目标变量的相关系数。我们判断的10组数据为异常数据的,,和,为残差,为学生化残差。
在显著性水平0.05下,经过异常值检验,可以得到10组样本的F值,它们都比大。则可以判定这10组数据为异常数据。
下面分两种情况讨论校准权数和相应的目标变量总量的估计。
(1)对在1025个总体中随机抽取的130个样本未作处理,即没有去掉其中的异常值,在约束条件下使最小化,则可以得到第三年总资产的校准估计量,我们也可以算出相应的方差估计量和估计量与总体总值的相对偏差。
(2)对随机抽取的130个样本去掉10组异常数据,我们可以得到正常集的大小为120,在约束条件,下使最小化,则可以得到目标变量的估计总量,我们也可以算出标准差估计量[2]和相对偏差。
5 总结
从表4中我们可以看到去掉异常值之后的数据得到的校准估计量与总体总值的相对偏差和标准差都比用原数据得到的相对偏差和标准差要小,则我们可以知道去掉异常值之后的数据得到的校准估计量优于未处理的数据得到的校准估计量,因此我们可以知道数据中的异常值会影响校准估计量的精度,所以我们需要对数据中的异常值进行处理,即就是把样本分为异常集和正常集,用正常集来估计总体。
在研究中我们发现,,我们并未找全数据中的异常值,则对提高目标变量的校准估计精度还是有一定程度的影响,所以对于对于异常值的诊断与处理还需进一步完善。此外,当目标变量与辅助信息呈非线性关系时,我们并没有给出这种情况下的校准估计,因为其计算步骤过于复杂。
参考文献
[1] 梁媛坚.校准估计量方法的研究[D].广东:暨南大学,2006.
[2] 王松桂,陈敏,陈立萍.线性统计模型[M].高等教育出版社,2014,44-51.
[3] 王松桂,陈敏,陈立萍.线性统计模型[M].高等教育出版社,2014,92-96.
作者简介
曾道梅(1992—),女,硕士,研究方向为数理统计大数据处理及算法优化。
赵凌(1964—),女,教授,研究方向为数理统计大数据处理及算法优。
基金项目
四川省教育厅科研重点项目“基于三阶段DEA方法对我国地区R&D投入绩效的评估及四川省R&D投入绩效分析”(13sa0137)。
[关键词]校准估计;异常值;精度
中图分类号:S298.3 文献标识码:A 文章编号:1009-914X(2018)02-0302-01
1 引言
Deville和Srndal于1992年首次提出“校准估计”的概念[1],Alain Théberge[2]通过仿真模拟对不同种类的估计量进行比较研究,发现校准估计量的均方误差通常要比Horvitz-Thompson估计量的均方误差小。很多国家统计机构将校准估计的思想运用于大范围的调查中,并且开发了相应的软件为实践应用提供了便利,那么当数据中存在异常值是否会影响校准估计量的精度?如果会影响,应该怎样处理数据中的异常值来提高估计量的精度呢?接下来就是要解决这些问题。
2 样本中的异常值的诊断和检验
在线性回归模型中,我们可以利用回归诊断来探查对参数估计或预测有异常大的影响的数据,这样的数据称为强影响数据,因为一组数据对应空间中的一个点,所以也成为强影响点。考虑线性回归模型[7]
3 校准估计
3.1 校准估计量
Deville和Srndal最早提出校准估计的概念,其核心思想是利用辅助信息在约束条件下得到校准权重,从而得到加权估计量。校准估计的一般程序是:首先在π估计体系[9]下确定原始设计权数,其次在辅助变量的样本加权总量估计值与总体总量相等的条件下,使得校准权重和设计权重(为总体单位k的入样概率)之间的距离最小,最后得到校准估计量,这样得到的校准估计量具有渐近设计无偏性、设计一致性,方差也比Horvitz-Thompson估计量(下简称H-T)要小。
在校准估计量的形式中,衡量初始权重和校准权重距离的距离函数通常满足的形式为其中是一个严格单调递增的单变量函数,并且Deville和Srndal[1]指出符合条件的距离函数所得到的校准估计量都是一致的且渐进无偏的。
3.2 校准估计的步骤
经过对样本中的异常值的判断和检验后,可以把样本s分为异常集和正常集,我们选用正常集r的数据来估计总体。首先应该确保正常集的样本加权和等于总体总值,即,其次在使用線性校准估计时,距离函数的形式为,取,则距离函数为,然后则可以得到校准估计量为:
4 实际数据分析
下面,我们通过实际数据来说明在校准估计中处理异常值的应用。现欲估计的是某省的1025个高新公司的第三年总资产的总和,故为目标变量,辅助信息为每个公司的第一年销售收入,第二年销售收入,第三年销售收入。
为说明校准估计的具体应用,我们用简单随机抽样的方法从上述总体中抽取容量为130的样本,这130组数据可以建立线性回归模型,通过回归诊断可以判断有10组数据表现异常,因为它们的残差 和学生化残差会明显地大于其它点对应量的绝对值,而且它们的也明显比较大,并且通过异常点检验,可以得到它们的统计量大于临界值,则可以确定这10组数据为异常点,则剩下的120组数据为正常集。样本各个变量的特征见表1。为验证样本中辅助信息的有效性,我们可以计算辅助变量与目标变量的相关系数。我们判断的10组数据为异常数据的,,和,为残差,为学生化残差。
在显著性水平0.05下,经过异常值检验,可以得到10组样本的F值,它们都比大。则可以判定这10组数据为异常数据。
下面分两种情况讨论校准权数和相应的目标变量总量的估计。
(1)对在1025个总体中随机抽取的130个样本未作处理,即没有去掉其中的异常值,在约束条件下使最小化,则可以得到第三年总资产的校准估计量,我们也可以算出相应的方差估计量和估计量与总体总值的相对偏差。
(2)对随机抽取的130个样本去掉10组异常数据,我们可以得到正常集的大小为120,在约束条件,下使最小化,则可以得到目标变量的估计总量,我们也可以算出标准差估计量[2]和相对偏差。
5 总结
从表4中我们可以看到去掉异常值之后的数据得到的校准估计量与总体总值的相对偏差和标准差都比用原数据得到的相对偏差和标准差要小,则我们可以知道去掉异常值之后的数据得到的校准估计量优于未处理的数据得到的校准估计量,因此我们可以知道数据中的异常值会影响校准估计量的精度,所以我们需要对数据中的异常值进行处理,即就是把样本分为异常集和正常集,用正常集来估计总体。
在研究中我们发现,,我们并未找全数据中的异常值,则对提高目标变量的校准估计精度还是有一定程度的影响,所以对于对于异常值的诊断与处理还需进一步完善。此外,当目标变量与辅助信息呈非线性关系时,我们并没有给出这种情况下的校准估计,因为其计算步骤过于复杂。
参考文献
[1] 梁媛坚.校准估计量方法的研究[D].广东:暨南大学,2006.
[2] 王松桂,陈敏,陈立萍.线性统计模型[M].高等教育出版社,2014,44-51.
[3] 王松桂,陈敏,陈立萍.线性统计模型[M].高等教育出版社,2014,92-96.
作者简介
曾道梅(1992—),女,硕士,研究方向为数理统计大数据处理及算法优化。
赵凌(1964—),女,教授,研究方向为数理统计大数据处理及算法优。
基金项目
四川省教育厅科研重点项目“基于三阶段DEA方法对我国地区R&D投入绩效的评估及四川省R&D投入绩效分析”(13sa0137)。