论文部分内容阅读
智能电网调度控制系统(简称D5000系统)提高了多级调度联合处置重大电网事故的能力,在维持电网安全稳定运行方面发挥着重要作用。一旦系统业务发生异常,电网运行会受到极大影响,甚至瘫痪,带来巨大经济损失。由于该系统具有业务繁多、业务层级关联复杂、数据维度大、数据类型种类多等特点,在检测异常时,目前对单一状态量设定阈值的方法没有考虑系统中各个状态量的关联关系,无法适应系统实际运行时出现的业务变动的情况,异常检测精度低。基于机器学习的异常检测方法为解决上述状况提供了一些手段,但现有方法存在检测效率较低、准确率低等问题。为提高系统智能化水平,帮助调度人员及时了解系统业务运行状况,保证业务运行可靠,基于机器学习思想,本文针对异常检测模型阈值设定、静态数据的异常检测、实时流数据的异常检测等关键技术开展研究。主要工作如下:1)为实现阈值设定的智能化,避免人为多次调整算法模型中的异常比率参数,提出了基于黄金分割率的自适应阈值设定方法。首先结合系统的应用背景,分析该系统业务阈值设定的需求。其次,基于机器学习算法,将数据的异常分值排序后进行多项式函数拟合,利用黄金分割率分析函数,从而挖掘数据集的分布规律并选定较为合适的模型阈值。最后,利用该阈值设定方案对孤立森林算法进行改进,使用多种公开数据集和实际D5000系统业务数据,分析算法在改进前后检测异常时性能的变化状况,验证该方案在异常检测中应用的可行性,为后续研究新型无监督异常检测方法奠定阈值划分基础。2)针对当前异常检测算法效率较低、检测高维度或数值型与逻辑型并存数据的异常精度较低等问题,提出了基于杠杆原理度量中心偏移的无监督异常检测方法。首先,分析业务异常检测的需求及现有方法应用于该系统业务异常检测中的缺陷。其次,基于机器学习思想并借鉴杠杆原理,通过度量原数据集中心的偏移情况来评定待测数据的异常程度,利用偏度分析数据集不同的空间分布状态并制定相应的异常判定调整策略,结合自适应阈值设定方案,构建倍增杠杆异常检测模型。最后,以多个公开数据集及D5000系统业务数据集为测试数据,将所提方法与多种典型异常检测方法对比,分析了所提方法在系统业务异常检测性能上的优势。3)为提高流数据异常检测精度,提出了基于轮盘赌的流数据异常检测方法,同时针对目前模型更新策略无法互相比较性能的问题,提出了一种评价流数据异常检测模型更新策略的指标。首先,结合系统业务实际运行时会出现业务变动的状况,分析该系统业务在线异常检测的需求。其次,基于倍增杠杆算法并结合轮盘赌策略,有选择地将数据存储到缓存区中,利用缓存区中的数据更新模型。最后,通过对比不同流数据异常检测算法的性能数值以及模型更新前后算法性能值的波动程度,提出了一种模型更新策略的评价指标,将此指标作为评价准则之一,分析该方法与其他现有方法在检测流数据异常时的表现。