论文部分内容阅读
近年来,随着大数据挖掘技术在水利行业中的迅速推广以及水库健康管理理念逐渐兴起,水库健康管理平台积累了海量的水库健康监测数据,海量数据是建立水库智能综合健康诊断模型、实现水库健康状况预警,优化调度等工作的重要基础。而水库健康管理平台在长期的数据采集与存储过程中,网络波动、传感器故障、人为操作失误等原因导致了水库健康监测数据的缺失值和异常值,这些缺失值和异常值严重降低了监测数据的真实性。不仅影响了水库智能综合健康诊断模型的构建而且干扰了水库健康状况的精确预测预警,甚至会提供误导信息,导致水库管理者决策失误,造成不可挽回的后果。因此,针对具备量大、数据复杂多样、高速、低密度价值,真实性大数据特征的海量水库健康监测数据进行缺失值填补和异常值检测具有重要的工程意义。本文用Matlab软件对基于多种距离的K均值算法和基于多种距离的K最近邻算法以及箱形图法、基于马氏距离的异常值检测法、基于欧式距离的异常值检测法进行编程,在K均值算法和K最近邻算法的程序中依次引入欧式距离、曼哈顿距离、闵氏距离、切比雪夫距离、余弦距离、相关距离、斯皮尔曼相关系数、汉明距离、杰卡德距离作为度量单位,在基于距离的异常值检测法的程序中引入欧氏距离和马氏距离为度量单位,运用所编程序对水库健康监测数据进行缺失值填补和异常值检测,将缺失值填补效果用均方根误差进行定量分析,将异常值检测结果汇总分析,得到的主要结论如下:(1)采用基于多种距离的K最近邻算法填补了水库健康监测大数据的缺失值,分析比较得出基于曼哈顿距离的K最近邻算法填补效果最好,经多次运算,其填补值与缺失值的均方根误差的均值约为:3.507。(2)采用基于多种距离的K均值算法填补了水库健康监测大数据的缺失值,分析比较得出基于斯皮尔曼相关系数的K均值算法的填补效果最好,经多次运算,其填补值与缺失值的均方根误差的均值约为:155.0。(3)对于离散程度高的监测数据、离散程度低的监测数据,采用基于斯皮尔曼相关系数的K均值算法填补缺失值;对于变化微小的监测数据,采用均值填补缺失值。(4)针对超出评分范围的异常值检测,基于马氏距离的异常值检测法效果更好,检测精度更高;针对评分差的异常值,基于欧式距离的异常值检测效果好,检测范围更广。(5)采用箱形图法对水库健康监测大数据进行了异常值检测,结果表明,箱形图法能够对监测数据的中位数、尾长、异常值、分布区间等形状信息进行直观表达,适用于异常值的宏观分析。(6)采用箱形图法和基于马氏距离的异常值检测法相结合的方法对水库健康监测大数据的异常值进行检测,两者的有效结合能对水库健康监测大数据的异常值进行直观表达和精准定位。研究结果表明上述方法能够有效针对水库健康监测大数据量大、监测指标多、数据类型复杂多样等特征,快速、高效的对水库健康监测大数据的缺失值进行填补,对异常值进行直观表达和精准定位,可以最大限度的保证水库健康监测数据的质量和真实性,从而提高数据分析的准确度,是实现水库工程优化调度,保障水库高效、安全和健康运行的重要前提。