【摘 要】
:
在数据收集过程中,往往会出现数据统计丢失、人为测量错误、以及自然不可控因素,这些都会造成数据缺失。例如在油田钻井风险评估需要用到大量的钻井现场数据,数据的缺失问题
论文部分内容阅读
在数据收集过程中,往往会出现数据统计丢失、人为测量错误、以及自然不可控因素,这些都会造成数据缺失。例如在油田钻井风险评估需要用到大量的钻井现场数据,数据的缺失问题在风险评估中就成为了一个非常重要的问题。它不仅影响着统计分析的过程,而且容易对调查或者研究的结果造成干扰,使结果出现偏差,甚至得出错误的结论。针对如何处理缺失数据,国内外进行了大量的研究,目前仍然是统计学研究中的热门问题。普通的数据的分析都是基于完整的数据进行分析,而对含有缺失值的数据集来说,显然不能直接使用,需要对缺失值进行填补后才能在此基础上进行分析。本文首先介绍了数据的缺失机制和缺失模式,总结了常见缺失数据的处理方式方法,包括删除、插补和不处理三种方式。描述了对缺失值进行插补的常用五种插补法的数学原理,包括均值插补、中位数插补、回归插补法、EM插补和多重插补法。通过模拟三组单变量五种不同缺失率的缺失数据集,根据数据缺失模式采用四种方法进行填补,比较了多重插补次数和不同插补方法对效率的影响。在对某油田钻井现场数据进行了实证插补分析中,构造变量随机缺失5%-40%的数据集,采取基于主成分分析的多元回归插法补和其他插补法对缺失值进行填补。分别从均值误差值、均方误差值、回归系数以及回归系数的偏差角度四个方面比较了插补效果。插补结果显示:在低缺失率时均值插补多重插补法和多元线性回归法插补均值误差和均方误差更小,当缺失率变大时,回归插补和多重插补具有更好的插补效果。根据已有插补法提出了两种改进的插补法:RED插补法和DA-REG插补法,并且将新方法运用到实际插补中。通过各种比较并作出各缺失率插补值与真值拟合效果图,结果显示:均值插补和中位数插补的结果均值误差都较小,随着缺失率增大均方误差也变大,并且存在插补值单一的缺点;在低缺失率时,其他几种方法的插补结果与真值基本吻合,其中低缺失率时回归插补法和DA-REG插补效果最好;随着缺失率的提高,拟合效果逐渐变差。综合看,多重插补法DA-REG插补法两种插补法更好。
其他文献
学生主体式的职业教育管理是以培养和发挥学生的主体性为价值取向,以发挥学生的积极性、能动性和创造性为前提,以创造平等、民主、和谐的教学环境为条件。强调学生的主动参与,师
自九八年参加工作以来一直担任中高年级的语文教学工作.作为一名资深语文教师.如何带领学生在语文教学中去汲取丰富的文化营养.一直是我追求的目标。在多年的语文教学中.很多学生
本文从教育部颁布的《国家中长期教育改革和发展规划纲要(2010-2020年)入手,分析了教育信息化环境下,具体分析了幼儿教师所应具备的包括的信息知识、信息能力、信息意识、信息道
宿迁地处淮河和沂沭泗诸河下游,历史上因水患县城多次迁移,宿迁之名由此而来。对宿迁的水患频仍,历史上许多开明帝王极为关注,其中尤以康熙、乾隆为甚。他们多次南巡经过宿迁,规划
厚钢板广泛应用在重型机械、大型舰船、海洋石油平台、堤坝和闸门等方面,一般以铸锭或连铸坯为原料,采用热轧方法生产。传统的生产方法存在很多缺点,而采用连铸坯复合轧制生产厚钢板,不仅可以充分发挥连铸坯生产效率高、成品质量好的优点,且摒弃大型铸锭的中心缩松、缩孔和偏析严重、成材率低等缺点,低成本地生产厚板和特厚板,因而受到人们的广泛关注。本文先以Q235钢为原料,在保护气氛下采用多道次热轧复合方法制备了厚
目的调查农村妇女更年期获得家庭资源的情况,以促进其身心健康,家庭和睦,利于她们更好的度过更年期。方法对浙江省四个地区150例农村更年期妇女进行调查问卷。结果农村妇女更年
陵江草街航电枢纽工程是嘉陵江上最大的航电枢纽工程,在建工程包括发电厂房和船闸两部分,混凝土施工分别执行《水工混凝土施工规范》和《水运工程混凝土施工规范》,二者既有相同
气道湿化是人工气道建立后的重要措施,本文将对气道湿化在目前研究中的不同湿化方法以及临床研究中效果衡量指标作以概述,并针对这些指标的优劣势提出异议,进而对其劣势的改
为了更准确地计算高速铁路雷电绕击闪络率,须考虑到雷电先导的随机性。针对暴露距离的电气几何模型在工程防雷计算中,没有考虑雷电先导带有入射角的缺陷,对应用暴露距离理念
让城市“看得见山、望得见水、记得住乡愁”,这是新时代城市发展的重要使命。城市风貌千篇一律,城市景观大同小异,有山不显、有水不露,面对这些问题,如何巧妙的利用山、水资源彰显城市特色,是当前城市绿地系统规划所面临的重要课题,也是本文研究关切所在。传统的绿地布局方法,主要以平面的构成形式以及相关绿地指标来进行布局,对于三维空间要素考虑较少,但对许多山地城市而言,这种注重平面的布局的方式已不能满足城市景观