缺失数据的填充方法研究及实证分析

来源 :西北大学 | 被引量 : 0次 | 上传用户:ranranwenwen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
缺失数据的存在是试验研究中经常遇到也是比较棘手的一个问题,它不仅干扰估计精度,也影响统计工作人员后续工作的有效开展.在过去20多年里,有关缺失值处理方法一直是应用统计学界一个热点话题,国外对此问题进行了大量研究,但国内一般对于缺失值的处理,还仅限于删除缺失元组或均值填充等简单常规处理方法.随着人们研究问题的高深化和复杂化,这种简单常规处理方法已经不能满足决策需要.因此,为了有效解决这个问题,本文借助于现代统计手段,介绍了几种常见处理缺失值问题方法的原理,主要分为三大类,删除缺失元组,缺失数据填充以及不处理.本研究着重从数据填充方面着手,详细讨论了均值填充、随机填充、期望最大化(EM)填充、线性回归模型填充、多重填充等方法的填充原理以及待估参数的相关迭代公式.同时,以糖尿病人的血糖与血清总胆固醇,甘油三酯,空腹胰岛素,糖化血红蛋白等四个测度变量的关系作实证分析.为分析比较不同填充方法的填充效果和适用条件,在原始完整数据集上构造不同级别缺失率的随机缺失数据集,分别采用文中介绍方法对各缺失数据集进行处理,并从参数均值及其标准误、标准方差、估计值与真值的偏离程度以及样本分布等方面进行分析比较.此外,以大学生数学建模竞赛的论文排序为例,探讨了这一类特定高缺失率的数据集在各种方法下的填充效果差异,为以后的统计决策提供了思路.结果显示,EM算法和回归填充算法在不同缺失率下相对都比较稳定,低缺失率下分层均值填充占优势,而在中高缺失情形下多重填充发展空间较大,虽未达到预期理想效果,但结果处于接受域内.
其他文献
在常见的起重设备中,如桥、门式起重机和臂架式起重机,其起升系统的动、定滑轮组都是单轴的,即几个滑轮安装在同一根轴上形成动、定滑轮组。而在一些特殊的超重设备中,如DJK140型架桥机
该研究探查幼儿对基数、数序、运算和解应用题的认知发展过程及其认知策略。着重探查:(1)不同认知任务对幼儿数认知发展的影响;(2)幼儿对基数和数序两者认知发展的顺序;(3)从幼儿主动
皮质醇生理作用广泛,包括抗炎及维持正常血糖水平、电解质平衡、血管通透性、机体水的分布平衡等。在应激反应时,HPA轴的作用和最终释放的皮质醇对于维持机体动态平衡起着至关
以24个人格形容词为材料,对111名大学生被试进行了“过去的我”、“现在的我”和“将来的我”三择一式的迫选反应实验,再配合时间标定作业。结果不仅验证了前文的研究结论,即不同同一
<正> 我们现在来把中国心理学的現状和发展趋向作一个簡要的介紹。但要了解中国心理学的現在情况,不能不很簡单地說一下它的过去。 把心理学作为一門独立的研究或者对它写出
地源热泵系统的换热形式应根据建筑所在地的水文地质、环境条件等情况而确定,因此,对我省浅层(地下200米以内)地热能的了就是十分必要,为了使我省地源热泵系统能健康有序的发
本研究总结了1112例神经症患者MMPI测查结果,探讨了神经症患者MMPI的模式特点。研究结果表明,本症患者除K、Mf-f分外其余量表原始分均显著高于常模。以中国T分60为界,大部分
这个报告中的初步研究工作在做法上甚有可取之处,在收获上也令人感觉到有广阔的前途。但诚如作者自己所说,这项初步研究工作还有不少不足之处,很有待继续努大加以充实和提高
在对有关自立的文献进行广泛检索的基础上,根据有关标准纳入了136项进行概念分析。从自立的特性、结构、条件与影响因素、结果与意义、相关概念、表现与指标等方面,对当前学
英语知识的呈现和学习是贯穿初中英语教学的线索,核心是学生适应终身发展和社会发展需要的必备品格和关键能力。这就必然要改革初中英语教学方法,变"输入式"为"探究式",变片