论文部分内容阅读
【摘要】 在抽样调查等实际工作中,经常出现缺失数据。缺失数据的产生机制和数据缺失模式各不相同,因此处理方法也就各不相同。本文就此问题简单介绍了几种缺失数据处理方法。
【关键词】 缺失数据 产生机制 数据缺失模式
1. 缺失数据产生原因
在抽样调查过程中,要想得到一个完全有效的问卷是很难的,数据缺失不可避免。造成这种现象的原因主要有以下几种:
1.1在存储数据过程中,因机器损坏造成数据存储失败。
1.2调查人员在采集数据过程中,人为地认为数据不重要或无用而私自丢弃数据。
1.3调查人员信息录入失误。
1.4被调查者不在调查现场或拒绝接受调查、拒绝透露被调查信息或回答错误信息。
1.5被调查者选取失误。
2. 缺失数据产生机制
当一维目标变量出现缺失数据时,在处理过程中首先要考虑缺失数据产生机制。缺失数据产生机制是通过探讨缺失数据与目标变量是否有关而界定的。若Y的缺失值与Y的观测值、未观测值都没有关系,则Y为完全随机缺失;若Y的缺失值与未观测值没有关系,但与其他观测变量有关,则Y为随机缺失;若Y的缺失值与未观测值有关,则Y为非随机缺失[1]。
3. 数据缺失模式
当多维目标变量出现缺失数据时,除考虑缺失数据产生机制外,还要判断数据缺失模式。数据缺失模式主要研究哪些变量缺失,更确切的说就是R的分布[2] 。
3.1单一变量无回答。缺失数据仅限于单个变量,常见于农业试验,如Yk表示粮食产量,存在缺失数据,而Y1,Y2,…,Yk-1(k=5)分别代表温度、施肥量、施肥种类及降雨量等影响粮食产量的因素,这些变量都是可以完全观测到的。
3.2多变量两式样。从第k个变量Yk开始变量缺失项目都相同,Yk之前的变量可以完全观测到。如家庭调查中,调查项目包括年龄、性别、婚否、孩子性别、孩子年龄、孩子的花费等,未婚者只能回答“婚否”前的项目,已婚者才可能回答“婚否”之后的项目。
3.3单调缺失模式。对数据资料阵Y进行适当的行列变换后,可以得到这样一个矩阵,它呈现出一种层级缺失的模式,即:当矩阵中的元素Yij缺失时,则对任意的p≥i和q≥j,元素Ypq也是缺失的。
3.4一般模式。数据缺失具有偶然性,无規律可循,如抽样调查中经常出现的项目无回答。
3.5文件匹配模式。变量Y1完全观测,变量Y2、Y3不能同时观测,如针对抽样调查中存在互斥分枝项目的观测值。
3.6因子分析模式。x表示因变量,完全缺失,Y完全观测,因素分析可以看作是Y对x的多元回归分析,由于x缺失,需要假定在给定x的情况下Y条件独立。
4. 缺失数据处理方法
4.1忽略不完全观测值,直接估计
不考虑缺失数据的影响,直接在目前获取的数据基础之上进行分析,包括列表删除和成对删除。
4.1.1列表删除法
列表删除法是处理缺失数据最简单的方法,即删除观测不完全的变量,针对所有回答项目,采用完全数据进行分析。这种方法简便,易于实施,不作任何修正。
4.1.2成对删除法
成对删除法就是把进行过回答的所有目标变量都包括进来。它的缺点是根据缺失数据形式不同,各个变量的样本基础总是不断变化。 [3]
4.2基于插补的缺失数据处理技术
通过上面的分析,可以看出简单的将数据删除并不是好的方法,插补法比列表删除法浪费更少的信息。当缺失数据为非随机缺失时,插补法比列表删除法更稳健。
4.2.1单一插补和多重插补
单一插补是指对每一个由于无回答造成的缺失值只构造一个替代值。它要求以观测数据为基础,为插补创建一个预测分布,然后从中抽取值进行插补。
多重插补是单一插补的基础上衍生来的,由Rubin[4]在1977年首先提出,是指给每个缺失值都构造一个以上的替代值,产生若干个完全数据集,对每个完全数据集分别使用相同的方法处理,得到若干个处理结果,最后再综合这些处理结果,最终得到目标变量的估计。
4.2.2确定性插补和随机插补
常用的确定性插补有以下几种:
(1)推理插补
推理插补是根据所得信息推断缺失值,比如先前调查的类似项目或目前调查中的相关项目等。例如一个被调查者提供了三个孩子的姓名,但“子女数”项空着,可以推出子女数为3。
(2)均值插补
均值插补简单但缺乏吸引力。均值插补用样本观测数据的均值去替代所有缺失值。这种方法只能在完全随机缺失机制下为总体均值或总体总量提供无偏估计。因为所有的插补值集中在均值点上,所以严重扭曲了数据分布,并在均值点上形成尖峰,导致低估估计量的方差。
(3)热平台插补
热平台插补是指在同一插补类中,使用与受者相似的供者记录的信息来替代受者记录中缺失值。它简单直观,不需要任何明确的统计模型,但不能覆盖调查中回答数据没有反映的信息。
(4)冷平台插补
与热平台插补类似,不同之处在于热平台插补使用当前调查的供者,而冷平台插补使用其它资料中的供者,其缺点是无法进行方差估计。
(5)最近邻插补
类似于热平台插补,它也基于匹配变量选择一个供者记录,也有人把它归入热平台插补。但这种方法目的不一定是非要找出一个和受者记录在匹配变量上完全相同的供者记录,而是找到和受者记录最接近的供者记录——即找到距离最近的值。其中的距离可以是反映供者记录与受者记录差异的任何距离,如欧氏距离。
(6)比率或回归插补
比率或回归插补是根据辅助信息与样本中的有效回答记录建立一个比率或回归模型,模型表明了目标变量和辅助变量之间的关系;然后根据辅助信息,利用建立的模型插补缺失数据。 (7)EM算法
EM算法[5]是根据所得观测数据,获得模型参数估计的一种方法。它括两步:E步指根据Yobs和θ(t)预测Ymis(t);M步指根据Yobs和Ymis(t)估计θ(t+1)。给定模型参数θ的初值θ(0),重复E步和M步,直到参数估计收敛为止,收敛时得到的Ymis(t)可看作插补值。
每一种确定性插补方法基本上对应着一种随机插补方法。插补定量数据时,用确定性方法得到一个插补值,加上一个残差作为最终的插补值,就称为随机插补。与确定性插补相比,随机插补能更好地保持数据的频数结构,保持更真实的数据变异。下面介绍两种贝叶斯观点的随机插补:
(8)贝叶斯Bootstrap(BB)
贝叶斯Bootstrap方法包括两步:①从(0,1)均匀分布中随机抽取r-1个随机数,将它们排序后记为a1,…,ar-1;同时令a0=0与ar=1,其中r是观测值的个数;②对m个缺失值中的每一个,分别从Y1,…,Yr中以概率(a1-a0),(a2-a1)…,(1-ar-1)抽取一个插补值;也就是,独立地抽取m次,每次抽取一个(0,1)上的均匀随机数u,如果ai-1 u ai(i=1,2,…r),则插补Yi。BB方法更多地在多重插补中使用。
(9)近似贝叶斯Bootstrap(ABB)
近似贝叶斯Bootstrap方法首先从样本的r个观测数据Y1,…,Yr中有放回地抽取r个值建立Yobs,然后从Y*obs中随机抽取m个值插补目标变量Y的m个缺失值。根据Rubin的理论,使用ABB方法得到的多重插补是近似“正确的”。与BB方法类似,这一方法更多地在多重插补中使用。
总结
对缺失数据进行处理过后,抽样调查的样本数据就可以当成是“完整数据”来处理了,不过在实际处理问题过程中,应该结合需要,采用不同的处理方法,以便能更好地来反映总体。
参考文献:
[1] 庞新生.缺失数据处理方法的比较[J]. 统计与决策. 2010. 24. 152-155.
[2] 杨军,赵宇,丁文兴. 抽样调查中缺失数据的插补方法[J]. 数理统计与管理.2008.9 27(5):821-831.
[3] Little, R.J.A. Discussion Proceedings of
the Survey Research Methods Section of the American Statistical Association[C]. Alexan-dria,VA,1995.
[4] Rubin D B. Multiple Imputation for Nonresponse in surveys [M]. John Wiley and Sons, 1987.
[5] Dempster A P, Laird N M and Rubin D B. Maximum likelihood from incomplete data via the EM algorithm (with disussion) [J]. J. Roy. Statist. Soc. Ser. B,1977,39:1-38.
作者簡介:赵存存,女,1986年9月生,山东泰安人,兰州商学院统计学院研究生,研究方向:金融市场计量分析。
(作者单位:兰州商学院统计学院)
【关键词】 缺失数据 产生机制 数据缺失模式
1. 缺失数据产生原因
在抽样调查过程中,要想得到一个完全有效的问卷是很难的,数据缺失不可避免。造成这种现象的原因主要有以下几种:
1.1在存储数据过程中,因机器损坏造成数据存储失败。
1.2调查人员在采集数据过程中,人为地认为数据不重要或无用而私自丢弃数据。
1.3调查人员信息录入失误。
1.4被调查者不在调查现场或拒绝接受调查、拒绝透露被调查信息或回答错误信息。
1.5被调查者选取失误。
2. 缺失数据产生机制
当一维目标变量出现缺失数据时,在处理过程中首先要考虑缺失数据产生机制。缺失数据产生机制是通过探讨缺失数据与目标变量是否有关而界定的。若Y的缺失值与Y的观测值、未观测值都没有关系,则Y为完全随机缺失;若Y的缺失值与未观测值没有关系,但与其他观测变量有关,则Y为随机缺失;若Y的缺失值与未观测值有关,则Y为非随机缺失[1]。
3. 数据缺失模式
当多维目标变量出现缺失数据时,除考虑缺失数据产生机制外,还要判断数据缺失模式。数据缺失模式主要研究哪些变量缺失,更确切的说就是R的分布[2] 。
3.1单一变量无回答。缺失数据仅限于单个变量,常见于农业试验,如Yk表示粮食产量,存在缺失数据,而Y1,Y2,…,Yk-1(k=5)分别代表温度、施肥量、施肥种类及降雨量等影响粮食产量的因素,这些变量都是可以完全观测到的。
3.2多变量两式样。从第k个变量Yk开始变量缺失项目都相同,Yk之前的变量可以完全观测到。如家庭调查中,调查项目包括年龄、性别、婚否、孩子性别、孩子年龄、孩子的花费等,未婚者只能回答“婚否”前的项目,已婚者才可能回答“婚否”之后的项目。
3.3单调缺失模式。对数据资料阵Y进行适当的行列变换后,可以得到这样一个矩阵,它呈现出一种层级缺失的模式,即:当矩阵中的元素Yij缺失时,则对任意的p≥i和q≥j,元素Ypq也是缺失的。
3.4一般模式。数据缺失具有偶然性,无規律可循,如抽样调查中经常出现的项目无回答。
3.5文件匹配模式。变量Y1完全观测,变量Y2、Y3不能同时观测,如针对抽样调查中存在互斥分枝项目的观测值。
3.6因子分析模式。x表示因变量,完全缺失,Y完全观测,因素分析可以看作是Y对x的多元回归分析,由于x缺失,需要假定在给定x的情况下Y条件独立。
4. 缺失数据处理方法
4.1忽略不完全观测值,直接估计
不考虑缺失数据的影响,直接在目前获取的数据基础之上进行分析,包括列表删除和成对删除。
4.1.1列表删除法
列表删除法是处理缺失数据最简单的方法,即删除观测不完全的变量,针对所有回答项目,采用完全数据进行分析。这种方法简便,易于实施,不作任何修正。
4.1.2成对删除法
成对删除法就是把进行过回答的所有目标变量都包括进来。它的缺点是根据缺失数据形式不同,各个变量的样本基础总是不断变化。 [3]
4.2基于插补的缺失数据处理技术
通过上面的分析,可以看出简单的将数据删除并不是好的方法,插补法比列表删除法浪费更少的信息。当缺失数据为非随机缺失时,插补法比列表删除法更稳健。
4.2.1单一插补和多重插补
单一插补是指对每一个由于无回答造成的缺失值只构造一个替代值。它要求以观测数据为基础,为插补创建一个预测分布,然后从中抽取值进行插补。
多重插补是单一插补的基础上衍生来的,由Rubin[4]在1977年首先提出,是指给每个缺失值都构造一个以上的替代值,产生若干个完全数据集,对每个完全数据集分别使用相同的方法处理,得到若干个处理结果,最后再综合这些处理结果,最终得到目标变量的估计。
4.2.2确定性插补和随机插补
常用的确定性插补有以下几种:
(1)推理插补
推理插补是根据所得信息推断缺失值,比如先前调查的类似项目或目前调查中的相关项目等。例如一个被调查者提供了三个孩子的姓名,但“子女数”项空着,可以推出子女数为3。
(2)均值插补
均值插补简单但缺乏吸引力。均值插补用样本观测数据的均值去替代所有缺失值。这种方法只能在完全随机缺失机制下为总体均值或总体总量提供无偏估计。因为所有的插补值集中在均值点上,所以严重扭曲了数据分布,并在均值点上形成尖峰,导致低估估计量的方差。
(3)热平台插补
热平台插补是指在同一插补类中,使用与受者相似的供者记录的信息来替代受者记录中缺失值。它简单直观,不需要任何明确的统计模型,但不能覆盖调查中回答数据没有反映的信息。
(4)冷平台插补
与热平台插补类似,不同之处在于热平台插补使用当前调查的供者,而冷平台插补使用其它资料中的供者,其缺点是无法进行方差估计。
(5)最近邻插补
类似于热平台插补,它也基于匹配变量选择一个供者记录,也有人把它归入热平台插补。但这种方法目的不一定是非要找出一个和受者记录在匹配变量上完全相同的供者记录,而是找到和受者记录最接近的供者记录——即找到距离最近的值。其中的距离可以是反映供者记录与受者记录差异的任何距离,如欧氏距离。
(6)比率或回归插补
比率或回归插补是根据辅助信息与样本中的有效回答记录建立一个比率或回归模型,模型表明了目标变量和辅助变量之间的关系;然后根据辅助信息,利用建立的模型插补缺失数据。 (7)EM算法
EM算法[5]是根据所得观测数据,获得模型参数估计的一种方法。它括两步:E步指根据Yobs和θ(t)预测Ymis(t);M步指根据Yobs和Ymis(t)估计θ(t+1)。给定模型参数θ的初值θ(0),重复E步和M步,直到参数估计收敛为止,收敛时得到的Ymis(t)可看作插补值。
每一种确定性插补方法基本上对应着一种随机插补方法。插补定量数据时,用确定性方法得到一个插补值,加上一个残差作为最终的插补值,就称为随机插补。与确定性插补相比,随机插补能更好地保持数据的频数结构,保持更真实的数据变异。下面介绍两种贝叶斯观点的随机插补:
(8)贝叶斯Bootstrap(BB)
贝叶斯Bootstrap方法包括两步:①从(0,1)均匀分布中随机抽取r-1个随机数,将它们排序后记为a1,…,ar-1;同时令a0=0与ar=1,其中r是观测值的个数;②对m个缺失值中的每一个,分别从Y1,…,Yr中以概率(a1-a0),(a2-a1)…,(1-ar-1)抽取一个插补值;也就是,独立地抽取m次,每次抽取一个(0,1)上的均匀随机数u,如果ai-1 u ai(i=1,2,…r),则插补Yi。BB方法更多地在多重插补中使用。
(9)近似贝叶斯Bootstrap(ABB)
近似贝叶斯Bootstrap方法首先从样本的r个观测数据Y1,…,Yr中有放回地抽取r个值建立Yobs,然后从Y*obs中随机抽取m个值插补目标变量Y的m个缺失值。根据Rubin的理论,使用ABB方法得到的多重插补是近似“正确的”。与BB方法类似,这一方法更多地在多重插补中使用。
总结
对缺失数据进行处理过后,抽样调查的样本数据就可以当成是“完整数据”来处理了,不过在实际处理问题过程中,应该结合需要,采用不同的处理方法,以便能更好地来反映总体。
参考文献:
[1] 庞新生.缺失数据处理方法的比较[J]. 统计与决策. 2010. 24. 152-155.
[2] 杨军,赵宇,丁文兴. 抽样调查中缺失数据的插补方法[J]. 数理统计与管理.2008.9 27(5):821-831.
[3] Little, R.J.A. Discussion Proceedings of
the Survey Research Methods Section of the American Statistical Association[C]. Alexan-dria,VA,1995.
[4] Rubin D B. Multiple Imputation for Nonresponse in surveys [M]. John Wiley and Sons, 1987.
[5] Dempster A P, Laird N M and Rubin D B. Maximum likelihood from incomplete data via the EM algorithm (with disussion) [J]. J. Roy. Statist. Soc. Ser. B,1977,39:1-38.
作者簡介:赵存存,女,1986年9月生,山东泰安人,兰州商学院统计学院研究生,研究方向:金融市场计量分析。
(作者单位:兰州商学院统计学院)