抽样调查中缺失数据的处理

来源 :China’s foreign Trade·下半月 | 被引量 : 0次 | 上传用户:taotao_xr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】 在抽样调查等实际工作中,经常出现缺失数据。缺失数据的产生机制和数据缺失模式各不相同,因此处理方法也就各不相同。本文就此问题简单介绍了几种缺失数据处理方法。
  【关键词】 缺失数据 产生机制 数据缺失模式
  1. 缺失数据产生原因
  在抽样调查过程中,要想得到一个完全有效的问卷是很难的,数据缺失不可避免。造成这种现象的原因主要有以下几种:
  1.1在存储数据过程中,因机器损坏造成数据存储失败。
  1.2调查人员在采集数据过程中,人为地认为数据不重要或无用而私自丢弃数据。
  1.3调查人员信息录入失误。
  1.4被调查者不在调查现场或拒绝接受调查、拒绝透露被调查信息或回答错误信息。
  1.5被调查者选取失误。
  2. 缺失数据产生机制
  当一维目标变量出现缺失数据时,在处理过程中首先要考虑缺失数据产生机制。缺失数据产生机制是通过探讨缺失数据与目标变量是否有关而界定的。若Y的缺失值与Y的观测值、未观测值都没有关系,则Y为完全随机缺失;若Y的缺失值与未观测值没有关系,但与其他观测变量有关,则Y为随机缺失;若Y的缺失值与未观测值有关,则Y为非随机缺失[1]。
  3. 数据缺失模式
  当多维目标变量出现缺失数据时,除考虑缺失数据产生机制外,还要判断数据缺失模式。数据缺失模式主要研究哪些变量缺失,更确切的说就是R的分布[2] 。
  3.1单一变量无回答。缺失数据仅限于单个变量,常见于农业试验,如Yk表示粮食产量,存在缺失数据,而Y1,Y2,…,Yk-1(k=5)分别代表温度、施肥量、施肥种类及降雨量等影响粮食产量的因素,这些变量都是可以完全观测到的。
  3.2多变量两式样。从第k个变量Yk开始变量缺失项目都相同,Yk之前的变量可以完全观测到。如家庭调查中,调查项目包括年龄、性别、婚否、孩子性别、孩子年龄、孩子的花费等,未婚者只能回答“婚否”前的项目,已婚者才可能回答“婚否”之后的项目。
  3.3单调缺失模式。对数据资料阵Y进行适当的行列变换后,可以得到这样一个矩阵,它呈现出一种层级缺失的模式,即:当矩阵中的元素Yij缺失时,则对任意的p≥i和q≥j,元素Ypq也是缺失的。
  3.4一般模式。数据缺失具有偶然性,无規律可循,如抽样调查中经常出现的项目无回答。
  3.5文件匹配模式。变量Y1完全观测,变量Y2、Y3不能同时观测,如针对抽样调查中存在互斥分枝项目的观测值。
  3.6因子分析模式。x表示因变量,完全缺失,Y完全观测,因素分析可以看作是Y对x的多元回归分析,由于x缺失,需要假定在给定x的情况下Y条件独立。
  4. 缺失数据处理方法
  4.1忽略不完全观测值,直接估计
  不考虑缺失数据的影响,直接在目前获取的数据基础之上进行分析,包括列表删除和成对删除。
  4.1.1列表删除法
  列表删除法是处理缺失数据最简单的方法,即删除观测不完全的变量,针对所有回答项目,采用完全数据进行分析。这种方法简便,易于实施,不作任何修正。
  4.1.2成对删除法
  成对删除法就是把进行过回答的所有目标变量都包括进来。它的缺点是根据缺失数据形式不同,各个变量的样本基础总是不断变化。 [3]
  4.2基于插补的缺失数据处理技术
  通过上面的分析,可以看出简单的将数据删除并不是好的方法,插补法比列表删除法浪费更少的信息。当缺失数据为非随机缺失时,插补法比列表删除法更稳健。
  4.2.1单一插补和多重插补
  单一插补是指对每一个由于无回答造成的缺失值只构造一个替代值。它要求以观测数据为基础,为插补创建一个预测分布,然后从中抽取值进行插补。
  多重插补是单一插补的基础上衍生来的,由Rubin[4]在1977年首先提出,是指给每个缺失值都构造一个以上的替代值,产生若干个完全数据集,对每个完全数据集分别使用相同的方法处理,得到若干个处理结果,最后再综合这些处理结果,最终得到目标变量的估计。
  4.2.2确定性插补和随机插补
  常用的确定性插补有以下几种:
  (1)推理插补
  推理插补是根据所得信息推断缺失值,比如先前调查的类似项目或目前调查中的相关项目等。例如一个被调查者提供了三个孩子的姓名,但“子女数”项空着,可以推出子女数为3。
  (2)均值插补
  均值插补简单但缺乏吸引力。均值插补用样本观测数据的均值去替代所有缺失值。这种方法只能在完全随机缺失机制下为总体均值或总体总量提供无偏估计。因为所有的插补值集中在均值点上,所以严重扭曲了数据分布,并在均值点上形成尖峰,导致低估估计量的方差。
  (3)热平台插补
  热平台插补是指在同一插补类中,使用与受者相似的供者记录的信息来替代受者记录中缺失值。它简单直观,不需要任何明确的统计模型,但不能覆盖调查中回答数据没有反映的信息。
  (4)冷平台插补
  与热平台插补类似,不同之处在于热平台插补使用当前调查的供者,而冷平台插补使用其它资料中的供者,其缺点是无法进行方差估计。
  (5)最近邻插补
  类似于热平台插补,它也基于匹配变量选择一个供者记录,也有人把它归入热平台插补。但这种方法目的不一定是非要找出一个和受者记录在匹配变量上完全相同的供者记录,而是找到和受者记录最接近的供者记录——即找到距离最近的值。其中的距离可以是反映供者记录与受者记录差异的任何距离,如欧氏距离。
  (6)比率或回归插补
  比率或回归插补是根据辅助信息与样本中的有效回答记录建立一个比率或回归模型,模型表明了目标变量和辅助变量之间的关系;然后根据辅助信息,利用建立的模型插补缺失数据。   (7)EM算法
  EM算法[5]是根据所得观测数据,获得模型参数估计的一种方法。它括两步:E步指根据Yobs和θ(t)预测Ymis(t);M步指根据Yobs和Ymis(t)估计θ(t+1)。给定模型参数θ的初值θ(0),重复E步和M步,直到参数估计收敛为止,收敛时得到的Ymis(t)可看作插补值。
  每一种确定性插补方法基本上对应着一种随机插补方法。插补定量数据时,用确定性方法得到一个插补值,加上一个残差作为最终的插补值,就称为随机插补。与确定性插补相比,随机插补能更好地保持数据的频数结构,保持更真实的数据变异。下面介绍两种贝叶斯观点的随机插补:
  (8)贝叶斯Bootstrap(BB)
  贝叶斯Bootstrap方法包括两步:①从(0,1)均匀分布中随机抽取r-1个随机数,将它们排序后记为a1,…,ar-1;同时令a0=0与ar=1,其中r是观测值的个数;②对m个缺失值中的每一个,分别从Y1,…,Yr中以概率(a1-a0),(a2-a1)…,(1-ar-1)抽取一个插补值;也就是,独立地抽取m次,每次抽取一个(0,1)上的均匀随机数u,如果ai-1 u ai(i=1,2,…r),则插补Yi。BB方法更多地在多重插补中使用。
  (9)近似贝叶斯Bootstrap(ABB)
  近似贝叶斯Bootstrap方法首先从样本的r个观测数据Y1,…,Yr中有放回地抽取r个值建立Yobs,然后从Y*obs中随机抽取m个值插补目标变量Y的m个缺失值。根据Rubin的理论,使用ABB方法得到的多重插补是近似“正确的”。与BB方法类似,这一方法更多地在多重插补中使用。
  总结
  对缺失数据进行处理过后,抽样调查的样本数据就可以当成是“完整数据”来处理了,不过在实际处理问题过程中,应该结合需要,采用不同的处理方法,以便能更好地来反映总体。
  参考文献:
  [1] 庞新生.缺失数据处理方法的比较[J]. 统计与决策. 2010. 24. 152-155.
  [2] 杨军,赵宇,丁文兴. 抽样调查中缺失数据的插补方法[J]. 数理统计与管理.2008.9 27(5):821-831.
  [3] Little, R.J.A. Discussion Proceedings of
  the Survey Research Methods Section of the American Statistical Association[C]. Alexan-dria,VA,1995.
  [4] Rubin D B. Multiple Imputation for Nonresponse in surveys [M]. John Wiley and Sons, 1987.
  [5] Dempster A P, Laird N M and Rubin D B. Maximum likelihood from incomplete data via the EM algorithm (with disussion) [J]. J. Roy. Statist. Soc. Ser. B,1977,39:1-38.
  作者簡介:赵存存,女,1986年9月生,山东泰安人,兰州商学院统计学院研究生,研究方向:金融市场计量分析。
  (作者单位:兰州商学院统计学院)
其他文献
一项与物联网相关的新发明专利曝光,据国家知识产权局(SIPO)网站相关信息显示,这项发明简单来说应该是一个智能取液装置及工具原理,可应用于智慧酒店等场所。根据相关描述,这项发明主要分为检测单元、控制单元、通信单元和供电单元4个部分。当检测单元检测到相应需求指令(如我们需要取定量的香水等)时,控制单元就会根据指令输出相应量的液体,而与此同时,用户、用量、费用等相关信息也会通过通信单元传送到云端及客户
期刊
这项专利描述了一种通过改变声学器件(扬声器或是麦克风)内部导电元件的电荷分布,从而将液体排出手机的方法。目前苹果大多是通过物理结构来防止液体浸入手机,譬如iPhone 6s配备的胶圈以及被硅树脂密封的缆线。但这种防护在一定压力下会失效,水汽依然会侵入到手机内部对敏感电子元件造成伤害。据专利文件描述,当声学模块内的传感器检测到水汽进入后,就会通过策略性地改变腔体壁上的电荷分布来收集或移动液体,从而将
期刊
谷歌(Google)是当今世界上最受欢迎的搜索引擎、智能手机制造商和最有影响力的公司之一。长久以来,这个特大型公司在全球拥有多个分部,在不同的地区开发不同的产品。人们俗称Googlplex的Google总部位于加利福尼亚州的山景城(Mountain View),占地288 000m2,拥有Google最大的建筑群。总部前花园建有Android各个版本相应甜点的雕塑,成为了山景城一道吸引游人的风景线
期刊
采用美国特斯拉的电动引擎和电池,戴姆勒把一辆奔驰B180轿车改装成了一辆电动汽车。在操控性和续航里程方面,这辆改装后的梅塞德斯-奔驰B级轿车与正宗的美国样板电动汽车相比表现如何呢?  很碰巧,我们的改装车正好停在一辆奔驰B180旁边卸货。因此,我们一眼就能看出改装带来的外形变化。由于电池安装在车的底部,所以后排腿部空间减少了8cm的间距,底盘离地面间距减少了6cm。为保证从地下车库出来时底盘不触地
期刊
10月23日,京东对外宣布旗下首款智能音箱——叮咚音箱,开始销售;同时宣布了7日内累计预约人数超过17万、销量超过同类产品第二至第十名总和等一系列成绩;并借此机会,将其声学合作伙伴超声音响推介到前台,超声音响详细介绍了在苛刻物理环境中,如何设计并利用空间,将一款看似普通的音箱产品,做到在5m距离内实现语音控制和完美音响效果。在叮咚音箱的设计制造过程中,有着丰富高端音箱及单元制造经验的超声,为该款产
期刊
1. 事故经过  我公司某自供厂用110kV线路为新架设的同杆双回线路,导线垂直排列,线长8.15公里,导线型号为LGJ-240/30。2010年3月同杆架设的两条线路纵联差动保护装置相继动作,电源侧和负荷侧断路器同时跳闸。事故发生过程中造成110kV线路短路,致使厂区电气系统内110kV母线电压降低,降幅最大区域电压从110kV降到59kV,严重影响了厂区的正常生产。  故障发生后组织技术人员巡
期刊
我们都曾记得,2008年,人们开始将电脑程序称为App。现在,人们很难想象,移动通信领域离开这些叫做App的小工具日子该怎么过。为此,移动设备制造商都在精心维护着自己产品的App生态环境。
期刊
人在地面上就能检测  针对农村电工排查漏电总保护跳闸原因时,采用常规的上杆拆线逐户排查的方式会带来工作量大且易引发高空坠落和人员触电的风险,分体式漏电测量仪将漏电钳型表进行分离,分成显示部分和测量部分,中间用数据线进行连接,达到人在地面上就能检测的目的。同时将钳型探头进行改装,由于安装了扇型状的聚酯绝缘板,所以站在地面上的人就能利用绝缘伸缩杆将改换后的铁芯插入或拔出导线,检查有无泄漏电流。
期刊
11月18日,希捷在无锡庆祝其进入中国市场20周年。20年前希捷选择落户在刚刚成立的无锡新加坡工业园区,成为这里第一家外资企业。2012年,希捷中国已经制造了超过10亿颗硬盘,覆盖从桌面到企业级、从磁头到完整产品、从控制芯片到存储阵列等各类产品,占希捷制造总量的58%成以上。希捷CTO Mark Re表示,希捷计划在2016年陆续推出消费级8TB产品,而采用充氦密封技术的10TB产品也将在2016
期刊
11月17日,奥图码在昆山举办了全新高端工程投影机系列新品发布会,新品多达十款,包括多功能工程投影机515系列七款产品(X515、W515(T)、EH515(T)和WU515(T))、高亮机型EX900、双灯高亮机型WU1500,以及本次工程投影机新品发布会的最大看点——激光光源工程投影机新品ZU650。ZU650是奥图码首款激光工程投影机产品,亮度高达6000流明,分辨率1920×1200。这是
期刊