论文部分内容阅读
[摘 要]电能表失流故障严重影响着电能的计量、对供电局和人们生活造成了很大的困扰,如何监测和识别失流故障从而实现对电能的准确计量有着很重要的现实意义。文章针对电能表失流故障进行研究,根据业务数据提取信息构建指标体系,建立决策树模型对失流故障进行识别,达到提高电能计量准确性和可靠性的目的。
[关键词]失流;决策树;F1值;ROC曲线
中图分类号:TP487 文献标识码:A 文章编号:1009-914X(2018)10-0289-02
0引言
近年来,随着国民经济飞速发展,在日常的生活与生产中对电的依赖越来越大。在电力需求不断增大的同时,还伴随着电能表故障频繁发生,导致装置记录电能与实际使用的电能不符,给用电和供电双方带来很大困扰。电能表失流是指在三相供电系统中,三相电压大于电能表的临界电压,三相电流中任一相或两相小于启动电流,同时替它相负荷电流高于启动电流的工况。电能表失流引发原因一般是电路老化、线路错误和电能表损坏等。本文主要从失流故障的电流数据进行分析,通过与正常数据进行比对并建立指标,构建决策树模型对失流故障进行自动识别,提高失流故障的识别效率。
1电能表失流特征概述
常见的电能表失流主要分为持续失流和断续失流两种。持续失流指三相中的某一相以非正常的幅度下降,另外两相电流仍然保持正常;其中一相电流与剩余两相差值激增;三相中任一相最低状态低于界值,但高于额定电流。断续失流指电流之间差值突然增大且维持时间不固定。
2创建模型
2.1模型概述
决策树(DecisionTree)算法是一种基于实际情况的机器学习算法,从给定的各项指标中,构建出树状决策分支,并通过树状图求取目标期望,是基于概率分析提出的一种的图解法。由于这种决策分支图形类似树的枝干,故称决策树。决策树是一种预测模型,代表属性与值之间的映射关系,是一种预测模型。树状图各支点的拆分选择从基于熵、信息增益考虑的纯度方面进行抉择。决策树模型的基本框架如图1所示。
2.2熵
信息中的熵是信息的度量单位,是一种对属性‘不确定性的度量’。属性的不确定性越大,说明推断它需要信息量越大,熵也就越大,决策树中属性的纯度也就越低。设数据集D中n类样本,出现的概率为Pi,则D的信息熵为:
条件熵表示在已知随机变量X的条件下Y的不确定性:
2.3信息增益
信息增益表示在已知特征X的信息下,特征Y的信息不确定性减少程度。通过计算每个属性的信息增益需求选择节点,信息增益越大说明该属性特征的确定性越高。
例如属性a的信息增益为:
2.4 ID3算法
ID3算法是在决策树的各级节点属性确定上,基于信息熵选择最佳属性,通过选取当前样本集中具有最大信息增益值的属性作为测试属性,这样可以得到当前情况下纯度最大的拆分,得到尽可能小的决策数。ID3算法的详细实现步骤如图2。
ID3算法作为决策树经典算法,在决策树的机器学习能很好表达出决策数的核心思想,但由于该算法采用信息增益作为测试属性的选择依据,在选择中会偏好取值较多的属性,但该属性不一定为最优属性,并且ID3算法在对连续性属性分类前要进行离散化。本文中构建的指标基本为离散型数据,所以选取ID3算法对决策树构建。
3建立模型
3.1指标构建
在对电力业务数据中提取相关属性构建故障识别指标,分别从三相电流中某一相与其余相差值是否超过标准差值、三相电流中某一相电流是否低于界值并高于额定电流、给定周期中三相电流中电流差值是否异常增大且持续时间三方面进行指标构建。构建出指标t时点电流级差Rt、t时点电流级差R异常状况Iat、周期T中Iat是否发生IO、周期T中Iat发生的次数St四个指标:
其中 ,最终Rt值为各项电流极差的最大值,Rt为t时点电流级差
Iat是t时点电流级差R异常状况
IO為周期T中Iat是否发生
St为周期T中Iat发生的次数
3.2建模流程
模型构建首先通过训练样本构建出指标,输入指标构建出决策树模型并进行机器学习,最后将测试指标放入模型进行预测,并对最终预测结果进行评价分析。
第一步,将已知业务数据划分为训练集和测试集,划分比例为8/2.
第二步,通过业务数据据构建出指标数据
第三步,将训练集指标输入模型进行训练,再将测试数据放入模型进行数据。
第四步,通过预测值和实际值对模型性能进行评价。
4模型评价
通过模型评价可以对模型整体性能进行了解。决策树模型的评价指标包括精确率、召回率、F1值、ROC曲线等指标。对本文决策树模型主要从F1值、ROC曲线两方面进行评价。
4.1 F1值
F1取值区间为[0,1],F1值越大说明模型分类性能越好。本文决策树模型F1值为0.93,说明测试样本中有93%的样本分类预测成功,即失流故障识别率达到93%,模型性能相对优良,对失流故障识别有一定的参考性。
4.2 ROC曲线
ROC曲线横纵坐标范围为[0,1],通常情况下ROC曲线与X轴形成的面积越大,表示模型性能越好,在实际应用中ROC曲线距离绿色直线越远表示性能越好。图5为构造的失流决策树模型ROC曲线,图中红色曲线靠进左上角,说明模型分类性能优良。
5结语
电能的计量是电力整个系统流程中非常重要的环节,对电力失流故障的监测,能有效提高电能计量准确度,减少不必要的电能损耗,减少供电方和用电方在电能计量失真方面的困扰。三相供电系统失流故障识别模型对电能计量有着很大帮助,能够大幅提高电能失流故障检测效率,在实际应用中有很大的现实意义。但模型的构建受多方面因素的限制,在模型性能方面可以通过一些调整进行不断优化。
参考文献
[1]张文霞.三相四线制电能表失流判断方法改进及应用[J].内蒙古电力技术,2013,31(4):83-35.
[2]王继业.电力企业数据中心的建立及其对策[J].中国电力,2007,40(4):69-73.
[3]符雯,罗正平,邓小东.电能表失流的处理[J].大众用电,2012,(1).
[4]王德文.基于云计算的电力数据中心基础架构及其关键技术[J].电力系统自动化,2012,36(11):67-71.
[5]Kerry Osborne,Randy Johnson,Tanel Potilder.深入理解OracleExadata[M].黄凯耀,张乐奕,张瑞,译.北京:电子工业出版社,2012:21-153.
[关键词]失流;决策树;F1值;ROC曲线
中图分类号:TP487 文献标识码:A 文章编号:1009-914X(2018)10-0289-02
0引言
近年来,随着国民经济飞速发展,在日常的生活与生产中对电的依赖越来越大。在电力需求不断增大的同时,还伴随着电能表故障频繁发生,导致装置记录电能与实际使用的电能不符,给用电和供电双方带来很大困扰。电能表失流是指在三相供电系统中,三相电压大于电能表的临界电压,三相电流中任一相或两相小于启动电流,同时替它相负荷电流高于启动电流的工况。电能表失流引发原因一般是电路老化、线路错误和电能表损坏等。本文主要从失流故障的电流数据进行分析,通过与正常数据进行比对并建立指标,构建决策树模型对失流故障进行自动识别,提高失流故障的识别效率。
1电能表失流特征概述
常见的电能表失流主要分为持续失流和断续失流两种。持续失流指三相中的某一相以非正常的幅度下降,另外两相电流仍然保持正常;其中一相电流与剩余两相差值激增;三相中任一相最低状态低于界值,但高于额定电流。断续失流指电流之间差值突然增大且维持时间不固定。
2创建模型
2.1模型概述
决策树(DecisionTree)算法是一种基于实际情况的机器学习算法,从给定的各项指标中,构建出树状决策分支,并通过树状图求取目标期望,是基于概率分析提出的一种的图解法。由于这种决策分支图形类似树的枝干,故称决策树。决策树是一种预测模型,代表属性与值之间的映射关系,是一种预测模型。树状图各支点的拆分选择从基于熵、信息增益考虑的纯度方面进行抉择。决策树模型的基本框架如图1所示。
2.2熵
信息中的熵是信息的度量单位,是一种对属性‘不确定性的度量’。属性的不确定性越大,说明推断它需要信息量越大,熵也就越大,决策树中属性的纯度也就越低。设数据集D中n类样本,出现的概率为Pi,则D的信息熵为:
条件熵表示在已知随机变量X的条件下Y的不确定性:
2.3信息增益
信息增益表示在已知特征X的信息下,特征Y的信息不确定性减少程度。通过计算每个属性的信息增益需求选择节点,信息增益越大说明该属性特征的确定性越高。
例如属性a的信息增益为:
2.4 ID3算法
ID3算法是在决策树的各级节点属性确定上,基于信息熵选择最佳属性,通过选取当前样本集中具有最大信息增益值的属性作为测试属性,这样可以得到当前情况下纯度最大的拆分,得到尽可能小的决策数。ID3算法的详细实现步骤如图2。
ID3算法作为决策树经典算法,在决策树的机器学习能很好表达出决策数的核心思想,但由于该算法采用信息增益作为测试属性的选择依据,在选择中会偏好取值较多的属性,但该属性不一定为最优属性,并且ID3算法在对连续性属性分类前要进行离散化。本文中构建的指标基本为离散型数据,所以选取ID3算法对决策树构建。
3建立模型
3.1指标构建
在对电力业务数据中提取相关属性构建故障识别指标,分别从三相电流中某一相与其余相差值是否超过标准差值、三相电流中某一相电流是否低于界值并高于额定电流、给定周期中三相电流中电流差值是否异常增大且持续时间三方面进行指标构建。构建出指标t时点电流级差Rt、t时点电流级差R异常状况Iat、周期T中Iat是否发生IO、周期T中Iat发生的次数St四个指标:
其中 ,最终Rt值为各项电流极差的最大值,Rt为t时点电流级差
Iat是t时点电流级差R异常状况
IO為周期T中Iat是否发生
St为周期T中Iat发生的次数
3.2建模流程
模型构建首先通过训练样本构建出指标,输入指标构建出决策树模型并进行机器学习,最后将测试指标放入模型进行预测,并对最终预测结果进行评价分析。
第一步,将已知业务数据划分为训练集和测试集,划分比例为8/2.
第二步,通过业务数据据构建出指标数据
第三步,将训练集指标输入模型进行训练,再将测试数据放入模型进行数据。
第四步,通过预测值和实际值对模型性能进行评价。
4模型评价
通过模型评价可以对模型整体性能进行了解。决策树模型的评价指标包括精确率、召回率、F1值、ROC曲线等指标。对本文决策树模型主要从F1值、ROC曲线两方面进行评价。
4.1 F1值
F1取值区间为[0,1],F1值越大说明模型分类性能越好。本文决策树模型F1值为0.93,说明测试样本中有93%的样本分类预测成功,即失流故障识别率达到93%,模型性能相对优良,对失流故障识别有一定的参考性。
4.2 ROC曲线
ROC曲线横纵坐标范围为[0,1],通常情况下ROC曲线与X轴形成的面积越大,表示模型性能越好,在实际应用中ROC曲线距离绿色直线越远表示性能越好。图5为构造的失流决策树模型ROC曲线,图中红色曲线靠进左上角,说明模型分类性能优良。
5结语
电能的计量是电力整个系统流程中非常重要的环节,对电力失流故障的监测,能有效提高电能计量准确度,减少不必要的电能损耗,减少供电方和用电方在电能计量失真方面的困扰。三相供电系统失流故障识别模型对电能计量有着很大帮助,能够大幅提高电能失流故障检测效率,在实际应用中有很大的现实意义。但模型的构建受多方面因素的限制,在模型性能方面可以通过一些调整进行不断优化。
参考文献
[1]张文霞.三相四线制电能表失流判断方法改进及应用[J].内蒙古电力技术,2013,31(4):83-35.
[2]王继业.电力企业数据中心的建立及其对策[J].中国电力,2007,40(4):69-73.
[3]符雯,罗正平,邓小东.电能表失流的处理[J].大众用电,2012,(1).
[4]王德文.基于云计算的电力数据中心基础架构及其关键技术[J].电力系统自动化,2012,36(11):67-71.
[5]Kerry Osborne,Randy Johnson,Tanel Potilder.深入理解OracleExadata[M].黄凯耀,张乐奕,张瑞,译.北京:电子工业出版社,2012:21-153.