论文部分内容阅读
电力行业的快速发展,累计了大量的数据,这些数据主要来自发电、输电、变电、配电、调度和用电等各个环节。异常数据检测在电力系统中也起着非常重要的作用,在配电网中,使用异常检测方法可以发现影响电能的各种异常状态,找出源头,防止故障继续扩散,从而及时止损。对于设备监控,异常检测可以帮助检查设备运行状态,有效的保证设备的稳定运行。对于智能用电系统,异常检测可以提高电网的服务水平,有效的节约人力资源,降低运营成本,使电网能比较经济的运行。传统的方法无法满足海量数据挖掘的要求,而基于机器学习的方法近几年在大数据上的应用发展迅速。本文介绍了电力行业数据的发展情况和异常检测的背景和意义,根据数据分析的过程,介绍了数据清洗、数据转换和数据降维的一些步骤和方法。针对不同的分析方法,本文研究了如何将这些方法改进,使其能运用到异常检测中来,其中包括基于概率的方法,基于机器学习的方法和频繁模式挖掘的算法。基于机器学习的算法中本文重点研究了基于线性模型的方法,基于邻近的方法和集成的方法。对于局部异常值的检测,基于聚类和局部离群因子(Local Outlier Factor,LOF)算法的结合,可以准确的发现局部异常点,但是LOF的复杂度较高,无法快速的做异常检测,对于实时性要求较高的应用,这将是瓶颈。而基于集成方法的孤立森林算法,只有线性的复杂度,但同样具有精确的异常检测效果,于是本文提出使用聚类算法和孤立森林的结合方法做异常检测。与LOF结合使用的聚类算法一般为K-Means,但此算法聚类效果一般,所以本文改用Affinity Propagation算法,Affinity Propagation算法不仅具有优秀的聚类效果,而且算法还有很多特性优于K-Means。电力数据中有一类数据包含了大量的类别特征(标签),告警数据就属于其中。这类数据的异常检测,使用上述方法是有困难的,所以本文改进FP-Tree,以使其可以用于对告警数据进行频发告警挖掘。通过实验用实际的数据进行数据分析,对算法的结果做展示。最后展望未来的发展方向,探索未来研究的新思路。