缺失数据填补方法研究

被引量 : 12次 | 上传用户:kmyzkmyz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不完备数据是在当今许多进行的实验研究领域和调查研究领域中普遍存在着的问题。不完备数据会增加分析任务的难度,造成结果偏倚,在一定程度上降低了统计工作的效率。特别是在完全观测与不完全观测存在着系统差异的情况下,运用常规的统计学方法对不完备数据集做出的分析结论会存在严重的局限性,是不能替代完全观测的。而数据清理技术的新发展,使得运用更为先进的方法成为可能。数据挖掘,也称之为数据库中知识发现,是一个可以从海量数据中智能地和自动地抽取一些有用的、可信的、有效的和可以理解的模式的过程。缺失数据填补是数据挖掘的重要研究内容之一。本文就是针对不完备数据的填补处理这一内容展开的,主要工作如下:1.介绍课题研究背景、国内外研究现状以及缺失数据分类机制;系统阐述了缺失数据填补算法的工作原理和实现方式;2.通过估计参数的相对误差大小比较了四种目前比较有前景的缺失数据处理方法的效果;3.本文的研究重点是新型关系矩阵模型,新型关系矩阵完整地记录了各对象之间条件属性以及决策属性的异同情况,以此挖掘对象间的潜在联系,并进行空缺值的填补处理。填补的结果不会破坏系统的协调性;4.针对本文算法进行了两组相关实验。实验一分别采用均值法、条件均值法以及本文算法处理UCI中的三个数据集,对比恢复率;实验二主要考察本文算法在不同缺失率下的填补准确性,研究包括七种缺失程度的数据。
其他文献
在中国反贫困战略取得举世瞩目成绩的时候,农村剩余贫困人口的特征凸显了开发式扶贫政策的局限:它对于地域和贫困人口劳动能力的依赖使得其对于剩余贫困人口的政策边际效益几
近年来,平等就业权遭到严重破坏的现象呈增长趋势,作为平等就业权的司法救济体系存在诸多不足,阻碍着平等就业权的实现。应在进一步完善现有法律体系的同时,通过专门立法和引
目的研究妊娠期贫血患者的血常规检验价值。方法选取50例妊娠期贫血患者作为A组,另选择同期50例进行体检的健康孕妇作为B组。两组均进行血常规检验,观察A组患者妊娠期贫血情
目的研究艾地苯醌能否减少癫痫持续状态后大鼠的反复自发发作。方法应用氯化锂-匹罗卡品诱导癫痫持续状态大鼠模型,将大鼠随机分为正常对照组、模型组、艾地苯醌干预组,造模
党的十九大报告全面总结了十八大以来我国经济社会发展取得的历史性成就,并对今后一个时期我国经济从高速增长向高质量发展迈进作出了新的部署。回顾过去五年的工作,面对严峻复
报纸
“官窑”是一种专称,宋代文献已经给出了标准。笔者认为废次品打碎后掩埋不是官窑的一种制度,而是官窑废次品处理的一种极个别现象。龙泉窑于北宋中期开始即已大规模
期刊
通过实证研究和问卷调查,探究了个人口头输出、个人书面输出、交互口头输出和交互书面输出对接受性词汇和产出性词汇习得的影响和效果。实验结果表明:(1)书面输出比口头输出
<正>第二产程是分娩过程中最重要的一个环节,第二产程的延长或停滞对母婴影响很大[1-2]。产妇进入临产后精神高度紧张,促使产妇交感神经过度兴奋,肌肉过度紧张,宫颈容易发生
自愿性会计政策变更一直是实证会计理论研究的核心内容之一。我国企业会计准则规定企业可根据自身实际经营特点进行自愿性会计政策变更。然而,在利益的驱使下,有些企业自愿性
<正>企业理财学还远未发展成为一门成熟的学科,因而关于企业理财问题如学科性质及定位尚没有一个令人信服的结论,由此导致的结果是许多概念界定和观念上的含混不清,直接制约