论文部分内容阅读
[摘 要]随着时代的进步,电力已经成为千家万户必不可少的能源基础,电网为根据用户的用电量进行计费以家庭为单位安装了电表进行用电量的统计。而一些不法用户利用电表的工作原理进行电表的改装,窃取电力,逃避缴费。这类窃电行为对电网的经济效益造成了一定的损害,属于违法行为。传统方式只能通过电表检修发现窃电行为,效率过低,本文将介绍一种基于大数据的窃电行为分析方法,按照数据预处理,特征提取,分类算法的数据处理分析思路为步骤阐述,旨在为读者提供解决实际问题的思路。
[关键词]数据挖掘;窃电行为;决策树分类器;朴素贝叶斯算法
中图分类号:F31 文献标识码:A 文章编号:1009-914X(2019)06-0391-01
电网的经济损失主要体现在线损电量,线损电量指的是供电量与售电量的差值,这部分差值主要由两部分组成,一部分为技术性线损,另一部分为管理线损,技术性线损主要依靠技术革新来尽量减免这部分的损耗,而管理线损需要电网提出一套可行且高效的监管方法来及时的找出电网中有窃电行为的用户,相比較下,管理线损属于一类更容易避免的损耗。所以,为了提高电网的经济效益,同时也能免去人工检查的这一部分人力消耗,降低电网的运营成本,使电网公司能够及时止损,本文提出一类基于数据挖掘算法的窃电行为分析思路。下文将按照具体思路分步骤阐述这类分析方法。
1.数据预处理
首先,从电网公司的抄表工作可以得到的数据记录包括每个用户每天的电表记录值,前一天的电表记录值以及由这两天的记录值求差得到的当天用电量。大量的数据中必定会有部分重复,误差,缺漏值,故应该通过适当的数据预处理的手段来使下面的数据分析进行简化。
根据Barzi & Woodward提出的观点:当缺失达60%以上时, 数据完全失去利用价值的观点,可以删去用电信息缺失过多的无效用户的信息;部分可补全的数据缺失值可以按前一天的用电量补全;寻找用户数据最完整的时间段,舍弃数据缺失较多的时间段的数据,将剩余缺失值按照插值法补全,缺失值可以采用均值补全或拉格朗日插值法补全,采用不同插值法,最终得到完整数据的精确度有一定的差别。
2.特征选择
在数据预处理完后,需要依据整理后的数据来选择特征。特征的作用是为接下来的数据挖掘消除噪声的数据,从而减轻噪声数据对数据分析的影响,提高信息系统处理信息的能力。为了获得具有可区分性、可靠性、独立性、数量少的特征,需要采用一些特定的方法来生成特征子集,例如穷举搜索法中的分支定界法。通过特征提取的方法也可以提取特征,如主成分分析法。当特征值较多时,在特征集合中挑选出一组特征,最具统计意义,以达到降维的目的。
在所得到的电网用户用电的样本中,数字特征并不多,因此选择常用的特征值,即表示用户样本中当天用电量数据的平均水平或集中趋势的均值,表示用户样本中当天用电量数据的个体差异或离散趋势的标准差或方差。通过计算这类特征得到80%的用户样本的特征与这些特征对应的标签作为接下来分类算法中的训练集,而剩余20%的用户样本的特征与对应的标签留作测试集,测试集主要用来测试训练集训练出的模型的准确度。通过4:1的比例随机分割样本,可以预防过拟合的现象。
在本文有关窃电行为的分析问题中,标签为窃电或者不窃电,我们可以用1与0来表示。很显然,该问题的实质的一个二分类的问题。下文将通过构造分类器来得到训练集训练出的模型。
3.分类算法
分类算法指的是根据已经得到的特征对数据进行分类,通过机器学习得到分类器,即目标函数,根据每条记录对应的特征使用得到的分类器进行分类,从而把特征映射到预先定好的标签中去。分类模型的构造方法有决策树法,朴素贝叶斯法,人工神经网络法等。
由上述分析可以知道,有关窃电行为的分析属于一个二分类的问题。可以采用较为简单的决策树法来构造分类器。决策树法是根据训练样本集得到一个输入样本数据特征并进行分类得到输出值的目标函数的方法,可以用于对测试集数据的分类进行预测。该算法的本质是在经过决策属性的划分后,选择划分前后熵之差最大的列,即使得信息熵越来越小,数据的无序度越来越低的列,而对其他的树枝进行剪枝处理。根据决策树法得到的分类器经过测试集的检验可以判断出分类器的好坏以及特征选择是否合理。
有关此类二分类问题,也可以选择朴素贝叶斯的方法来构造分类器。贝叶斯方法是一种通过对输入的样本数据特征与标签的概率关系进行建模得到目标函数的方法,而朴素贝叶斯方法则是通过假设样本数据特征与不同标签的关系相互独立来简单的实现对特征的分类。这是一种容易实现的分类方法,但也因为这类假设过于简单而影响了它的数据挖掘能力。
通过决策树法或朴素贝叶斯算法得到的分类器需要通过测试集进行验证。评价分类器的性能常采用精准率和召回率这两个指标。精准率表示预测结果的准确率,而召回率则代表训练集中被预测正确的比例。当然也可以通过绘制ROC曲线来评价训练出的分类器性能。
4.总结
综上所述,有关于电网用户窃电行为的分析,采用数据挖掘的方法要比人工检修效率更高成本更低,通过大数据分析可以对电网用户的窃电行为进行预测分析,更加精准的找出窃电用户,及时终止这类不法行为,以减少电网的经济损失。这类基于数据挖掘算法解决实际问题的分析方法不仅需要理论上更加的完善,也需要在实际的电网用户窃电问题分析中更广泛的运用,这样才能真正实现理论研究的价值。
参考文献
[1] 杨佳,基于电网电气参量特性分析的窃电辨识方法[D]. 北京:华北电力大学(北京), 2015: 1-75.
[2] 胡琛, 数据挖掘技术在电量管理与反窃电系统中的应用与研究[D]. 武汉:武汉大学, 2004: 1-59.
[3] 刘红岩,陈剑,陈国青,数据挖掘中的数据分类算法综述[J].清华大学学报(自然科学版),2002,06:727-730.
[4] 罗海蛟,刘显, 数据挖掘中分类算法的研究及其应用[J]. 微机发展, 2003,z2:48-50.
[关键词]数据挖掘;窃电行为;决策树分类器;朴素贝叶斯算法
中图分类号:F31 文献标识码:A 文章编号:1009-914X(2019)06-0391-01
电网的经济损失主要体现在线损电量,线损电量指的是供电量与售电量的差值,这部分差值主要由两部分组成,一部分为技术性线损,另一部分为管理线损,技术性线损主要依靠技术革新来尽量减免这部分的损耗,而管理线损需要电网提出一套可行且高效的监管方法来及时的找出电网中有窃电行为的用户,相比較下,管理线损属于一类更容易避免的损耗。所以,为了提高电网的经济效益,同时也能免去人工检查的这一部分人力消耗,降低电网的运营成本,使电网公司能够及时止损,本文提出一类基于数据挖掘算法的窃电行为分析思路。下文将按照具体思路分步骤阐述这类分析方法。
1.数据预处理
首先,从电网公司的抄表工作可以得到的数据记录包括每个用户每天的电表记录值,前一天的电表记录值以及由这两天的记录值求差得到的当天用电量。大量的数据中必定会有部分重复,误差,缺漏值,故应该通过适当的数据预处理的手段来使下面的数据分析进行简化。
根据Barzi & Woodward提出的观点:当缺失达60%以上时, 数据完全失去利用价值的观点,可以删去用电信息缺失过多的无效用户的信息;部分可补全的数据缺失值可以按前一天的用电量补全;寻找用户数据最完整的时间段,舍弃数据缺失较多的时间段的数据,将剩余缺失值按照插值法补全,缺失值可以采用均值补全或拉格朗日插值法补全,采用不同插值法,最终得到完整数据的精确度有一定的差别。
2.特征选择
在数据预处理完后,需要依据整理后的数据来选择特征。特征的作用是为接下来的数据挖掘消除噪声的数据,从而减轻噪声数据对数据分析的影响,提高信息系统处理信息的能力。为了获得具有可区分性、可靠性、独立性、数量少的特征,需要采用一些特定的方法来生成特征子集,例如穷举搜索法中的分支定界法。通过特征提取的方法也可以提取特征,如主成分分析法。当特征值较多时,在特征集合中挑选出一组特征,最具统计意义,以达到降维的目的。
在所得到的电网用户用电的样本中,数字特征并不多,因此选择常用的特征值,即表示用户样本中当天用电量数据的平均水平或集中趋势的均值,表示用户样本中当天用电量数据的个体差异或离散趋势的标准差或方差。通过计算这类特征得到80%的用户样本的特征与这些特征对应的标签作为接下来分类算法中的训练集,而剩余20%的用户样本的特征与对应的标签留作测试集,测试集主要用来测试训练集训练出的模型的准确度。通过4:1的比例随机分割样本,可以预防过拟合的现象。
在本文有关窃电行为的分析问题中,标签为窃电或者不窃电,我们可以用1与0来表示。很显然,该问题的实质的一个二分类的问题。下文将通过构造分类器来得到训练集训练出的模型。
3.分类算法
分类算法指的是根据已经得到的特征对数据进行分类,通过机器学习得到分类器,即目标函数,根据每条记录对应的特征使用得到的分类器进行分类,从而把特征映射到预先定好的标签中去。分类模型的构造方法有决策树法,朴素贝叶斯法,人工神经网络法等。
由上述分析可以知道,有关窃电行为的分析属于一个二分类的问题。可以采用较为简单的决策树法来构造分类器。决策树法是根据训练样本集得到一个输入样本数据特征并进行分类得到输出值的目标函数的方法,可以用于对测试集数据的分类进行预测。该算法的本质是在经过决策属性的划分后,选择划分前后熵之差最大的列,即使得信息熵越来越小,数据的无序度越来越低的列,而对其他的树枝进行剪枝处理。根据决策树法得到的分类器经过测试集的检验可以判断出分类器的好坏以及特征选择是否合理。
有关此类二分类问题,也可以选择朴素贝叶斯的方法来构造分类器。贝叶斯方法是一种通过对输入的样本数据特征与标签的概率关系进行建模得到目标函数的方法,而朴素贝叶斯方法则是通过假设样本数据特征与不同标签的关系相互独立来简单的实现对特征的分类。这是一种容易实现的分类方法,但也因为这类假设过于简单而影响了它的数据挖掘能力。
通过决策树法或朴素贝叶斯算法得到的分类器需要通过测试集进行验证。评价分类器的性能常采用精准率和召回率这两个指标。精准率表示预测结果的准确率,而召回率则代表训练集中被预测正确的比例。当然也可以通过绘制ROC曲线来评价训练出的分类器性能。
4.总结
综上所述,有关于电网用户窃电行为的分析,采用数据挖掘的方法要比人工检修效率更高成本更低,通过大数据分析可以对电网用户的窃电行为进行预测分析,更加精准的找出窃电用户,及时终止这类不法行为,以减少电网的经济损失。这类基于数据挖掘算法解决实际问题的分析方法不仅需要理论上更加的完善,也需要在实际的电网用户窃电问题分析中更广泛的运用,这样才能真正实现理论研究的价值。
参考文献
[1] 杨佳,基于电网电气参量特性分析的窃电辨识方法[D]. 北京:华北电力大学(北京), 2015: 1-75.
[2] 胡琛, 数据挖掘技术在电量管理与反窃电系统中的应用与研究[D]. 武汉:武汉大学, 2004: 1-59.
[3] 刘红岩,陈剑,陈国青,数据挖掘中的数据分类算法综述[J].清华大学学报(自然科学版),2002,06:727-730.
[4] 罗海蛟,刘显, 数据挖掘中分类算法的研究及其应用[J]. 微机发展, 2003,z2:48-50.