论文部分内容阅读
缺失值填补是机器学习算法数据预处理中不可或缺的任务。以苏东压裂直井为例,通过筛选收集了800口井的地质、压裂施工和生产三个方面的数据集。应用机器学习数据预处理方法在R语言中对缺失值可视化描述。并绘制无阻流量与各自变量之间的散点矩阵图,分析线性关系较为显著的自变量。通过构造完整数据集,对线性关系较好的自变量建立多元线性回归模型,分析该回归模型的各个参数及其标准误差并作为参考标准。分别采用均值填补法、K最近邻填补法和多重填补对缺失值进行填补,将填补的数据集与完整数据集的参数及其标准误差进行比较后,发现就此数据