基于缺失率的不完整数据填补算法

来源 :统计与决策 | 被引量 : 0次 | 上传用户:meimeini
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器学习和数据挖掘已经应用于诸多领域.然而由于各种原因,真实数据集通常包含缺失值.为了提高填补缺失值的准确率,文章基于不完整数据的不同缺失率,在R平台上对7种插补方法进行评估.实验结果表明,缺失森林和马尔科夫链蒙特卡洛方法的平均绝对百分误和误分类比率优于其他填补方法.基于验证结果,提出了一种混合插补方法,即在计算数据集的缺失率之后,使用缺失森林估算缺失率小于等于5%的缺失值,然后使用马尔科夫链蒙特卡洛填补缺失率为5%到10%的缺失值.
其他文献
文章基于我国1999-2019年的省级面板数据,对当前文献中用于衡量产业结构变迁的三种指数进行了相关性检验,发现基于比重加权相加法测算的产业结构升级指数和基于向量夹角法测
基于面板数据的向量自回归模型(PVAR),是向量自回归(VAR)模型向空间维度的拓展,也是面板数据模型与向量自回归模型的融合.文章从PVAR模型的发展脉络、面板数据向量自回归模型
文章运用DEA-Malmquist模型考察长江经济带沿线11省份文化产业发展质量,采用加法分解并分析技术进步助推文化产业高质量发展的贡献率,通过Tobit面板计量模型考察不同技术进步