论文部分内容阅读
机器学习和数据挖掘已经应用于诸多领域.然而由于各种原因,真实数据集通常包含缺失值.为了提高填补缺失值的准确率,文章基于不完整数据的不同缺失率,在R平台上对7种插补方法进行评估.实验结果表明,缺失森林和马尔科夫链蒙特卡洛方法的平均绝对百分误和误分类比率优于其他填补方法.基于验证结果,提出了一种混合插补方法,即在计算数据集的缺失率之后,使用缺失森林估算缺失率小于等于5%的缺失值,然后使用马尔科夫链蒙特卡洛填补缺失率为5%到10%的缺失值.