浅谈基于大数据的窃电行为分析

来源 :中国科技博览 | 被引量 : 0次 | 上传用户:qinjiajign1323770
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘 要]随着时代的进步,电力已经成为千家万户必不可少的能源基础,电网为根据用户的用电量进行计费以家庭为单位安装了电表进行用电量的统计。而一些不法用户利用电表的工作原理进行电表的改装,窃取电力,逃避缴费。这类窃电行为对电网的经济效益造成了一定的损害,属于违法行为。传统方式只能通过电表检修发现窃电行为,效率过低,本文将介绍一种基于大数据的窃电行为分析方法,按照数据预处理,特征提取,分类算法的数据处理分析思路为步骤阐述,旨在为读者提供解决实际问题的思路。
  [关键词]数据挖掘;窃电行为;决策树分类器;朴素贝叶斯算法
  中图分类号:F31 文献标识码:A 文章编号:1009-914X(2019)06-0391-01
  电网的经济损失主要体现在线损电量,线损电量指的是供电量与售电量的差值,这部分差值主要由两部分组成,一部分为技术性线损,另一部分为管理线损,技术性线损主要依靠技术革新来尽量减免这部分的损耗,而管理线损需要电网提出一套可行且高效的监管方法来及时的找出电网中有窃电行为的用户,相比較下,管理线损属于一类更容易避免的损耗。所以,为了提高电网的经济效益,同时也能免去人工检查的这一部分人力消耗,降低电网的运营成本,使电网公司能够及时止损,本文提出一类基于数据挖掘算法的窃电行为分析思路。下文将按照具体思路分步骤阐述这类分析方法。
  1.数据预处理
  首先,从电网公司的抄表工作可以得到的数据记录包括每个用户每天的电表记录值,前一天的电表记录值以及由这两天的记录值求差得到的当天用电量。大量的数据中必定会有部分重复,误差,缺漏值,故应该通过适当的数据预处理的手段来使下面的数据分析进行简化。
  根据Barzi & Woodward提出的观点:当缺失达60%以上时, 数据完全失去利用价值的观点,可以删去用电信息缺失过多的无效用户的信息;部分可补全的数据缺失值可以按前一天的用电量补全;寻找用户数据最完整的时间段,舍弃数据缺失较多的时间段的数据,将剩余缺失值按照插值法补全,缺失值可以采用均值补全或拉格朗日插值法补全,采用不同插值法,最终得到完整数据的精确度有一定的差别。
  2.特征选择
  在数据预处理完后,需要依据整理后的数据来选择特征。特征的作用是为接下来的数据挖掘消除噪声的数据,从而减轻噪声数据对数据分析的影响,提高信息系统处理信息的能力。为了获得具有可区分性、可靠性、独立性、数量少的特征,需要采用一些特定的方法来生成特征子集,例如穷举搜索法中的分支定界法。通过特征提取的方法也可以提取特征,如主成分分析法。当特征值较多时,在特征集合中挑选出一组特征,最具统计意义,以达到降维的目的。
  在所得到的电网用户用电的样本中,数字特征并不多,因此选择常用的特征值,即表示用户样本中当天用电量数据的平均水平或集中趋势的均值,表示用户样本中当天用电量数据的个体差异或离散趋势的标准差或方差。通过计算这类特征得到80%的用户样本的特征与这些特征对应的标签作为接下来分类算法中的训练集,而剩余20%的用户样本的特征与对应的标签留作测试集,测试集主要用来测试训练集训练出的模型的准确度。通过4:1的比例随机分割样本,可以预防过拟合的现象。
  在本文有关窃电行为的分析问题中,标签为窃电或者不窃电,我们可以用1与0来表示。很显然,该问题的实质的一个二分类的问题。下文将通过构造分类器来得到训练集训练出的模型。
  3.分类算法
  分类算法指的是根据已经得到的特征对数据进行分类,通过机器学习得到分类器,即目标函数,根据每条记录对应的特征使用得到的分类器进行分类,从而把特征映射到预先定好的标签中去。分类模型的构造方法有决策树法,朴素贝叶斯法,人工神经网络法等。
  由上述分析可以知道,有关窃电行为的分析属于一个二分类的问题。可以采用较为简单的决策树法来构造分类器。决策树法是根据训练样本集得到一个输入样本数据特征并进行分类得到输出值的目标函数的方法,可以用于对测试集数据的分类进行预测。该算法的本质是在经过决策属性的划分后,选择划分前后熵之差最大的列,即使得信息熵越来越小,数据的无序度越来越低的列,而对其他的树枝进行剪枝处理。根据决策树法得到的分类器经过测试集的检验可以判断出分类器的好坏以及特征选择是否合理。
  有关此类二分类问题,也可以选择朴素贝叶斯的方法来构造分类器。贝叶斯方法是一种通过对输入的样本数据特征与标签的概率关系进行建模得到目标函数的方法,而朴素贝叶斯方法则是通过假设样本数据特征与不同标签的关系相互独立来简单的实现对特征的分类。这是一种容易实现的分类方法,但也因为这类假设过于简单而影响了它的数据挖掘能力。
  通过决策树法或朴素贝叶斯算法得到的分类器需要通过测试集进行验证。评价分类器的性能常采用精准率和召回率这两个指标。精准率表示预测结果的准确率,而召回率则代表训练集中被预测正确的比例。当然也可以通过绘制ROC曲线来评价训练出的分类器性能。
  4.总结
  综上所述,有关于电网用户窃电行为的分析,采用数据挖掘的方法要比人工检修效率更高成本更低,通过大数据分析可以对电网用户的窃电行为进行预测分析,更加精准的找出窃电用户,及时终止这类不法行为,以减少电网的经济损失。这类基于数据挖掘算法解决实际问题的分析方法不仅需要理论上更加的完善,也需要在实际的电网用户窃电问题分析中更广泛的运用,这样才能真正实现理论研究的价值。
  参考文献
  [1] 杨佳,基于电网电气参量特性分析的窃电辨识方法[D]. 北京:华北电力大学(北京), 2015: 1-75.
  [2] 胡琛, 数据挖掘技术在电量管理与反窃电系统中的应用与研究[D]. 武汉:武汉大学, 2004: 1-59.
  [3] 刘红岩,陈剑,陈国青,数据挖掘中的数据分类算法综述[J].清华大学学报(自然科学版),2002,06:727-730.
  [4] 罗海蛟,刘显, 数据挖掘中分类算法的研究及其应用[J]. 微机发展, 2003,z2:48-50.
其他文献
[摘 要]在当今时代,人力资源管理作为企业管理中一个十分重要的部分,其发展的具体情况,对于企业的竞争力起着十分关键的作用。首先分析了人力资源在企业管理中的价值,然后分析了人力资源在企业管理之中存在的问题:对人力资源在企业管理之中的作用认识不足;培训机制不健全;管理制度不完备;忽视建立有效的机制,最后分析了加强人力资源在企业管理之中的作用分析:转变观念高度重视人力资源管理;科学规划,提高人力资源使用
期刊
[摘 要]随着石油勘探开发的深入,深水重力流沉积逐渐的被人们所关注,尤其在深水重力流沉积形成的机理及分类方面取得了很多突破性的进展。本文通过对重力流沉积分类的描述,试图说明在不同深水重力流沉积类别下的常见浊流与碎屑流的沉积特征和理论模型,并对异重流观点的提出做一定的解释。  [关键词]深水重力流;浊流;碎屑流;异重流  中图分类号:F31 文献标识码:A 文章编号:1009-914X(2019)0
期刊
中图分类号:F31 文献标识码:A 文章编号:1009-914X(2019)06-0383-01  一、案例事实  甲公司幕墙工程由乙公司设计。设计合同约定,本项目幕墙工程采取限额设计,施工造价不超过1500万元。如因设计人原因导致幕墙施工招标控制价超出设计限额的10%,则设计人应按总设计费用的20%向发包人支付违约金,并可在应付款中直接扣除。结算尾款时,甲公司以招标控制价超过1650万元为由,扣
期刊
[摘 要]随着社会的发展和进步,我国经济已由高速增长阶段转向高质量发展阶段,而与此同时这对会计审计工作的要求也越来越严格。信息化技术的发展,极大地提高了各种工作效率,推动了人类社会的进步。但另一方面会计审计风险也越来越大,有些地方不利于个人和企业的长远发展。所以研究分析会计审计风险因素,对信息化审计策略进行探讨是一件十分具有必要性的工作。本文将对会计审计风险因素进行适当的讨论的同时,也将对信息化审
期刊
[摘 要]近年来,我国部分事业单位大力推动党建工作,并将其作为一项重要工作内容。党建工作不仅能够激发企业员工对工作的积极主动性,同时也可以保证单位正常有序的发展。但是依据相关调查和研究显示表明,部分事业单位对于党政建设工作仍然存在一些不足之处,特别是党建政工工作实效性问题,对于此,本文将党建工作理论知识以及实践活动二者进行结合,对党建政工工作的实效性问题进行深入的研究和探讨。  [关键词]党建政工
期刊
[摘 要]水利水电工程由于它独特的特点,具有一定的危险性,同时还存在着许多不安全的因素。如果水利水电工程出现了安全事故,那么将会带来巨大的损失。本文主要对水利水电施工安全生产管理的问题及对策进行了简要的探讨。  [关键词]水利水电;施工安全问题;对策  中图分类号:F31 文献标识码:A 文章编号:1009-914X(2019)06-0357-01  一、引言  水利水电工程的施工过程中,如果安全
期刊
[摘 要]党十九大召开之后,在新党章中对纪检委监督执纪问责的相应职责惊喜感明确的定位,从而对党的纪律内涵以及执纪原则进行逐步完善,对纪委双重领导体制进行详细的焚化,从而为顺利开展纪检监察工作奠定良好的基础。随着社会经济环境的不断变化与影响,国有企业基层纪检监察工作迎来了新的发展机遇,同时也要面临更多的挑战和要求。基于此,本文主要针对国有企业基层纪检监察工作的现状进行全面的分析了解,从而找到问题的原
期刊
[摘 要]树脂工艺品是以树脂为原料,通过模具浇注成型而得到的产品。模具设计对树脂工艺品生产加工影响巨大。传统树脂模具生产方式已经不能有效适应社会发展的需求,尤其是难以满足智能化标准化的生产需求。在树脂工艺品设计过程中,利用计算机技术进行模具设计及生产制造已经成为当前树脂工艺品设计制造技术的必然发展趋势。由此,本文主要阐述树脂工艺品模具设计目前存在的问题,三维数字化建模和3D打印技术在树脂工艺品模具
期刊
[摘 要]本文通过对温度继电器装配流程的介绍,简要分析总结出提高温度继电器可靠性的几种措施和方法。  [关键词]继电器;可靠性;措施  中图分类号:E231 文献标识码:A 文章编号:1009-914X(2019)06-0384-01  一、概述  温度继电器被广泛应用在航空、航天、通信、家用电器、电源、电机以及集成电路等领域作温度控制和过热保护用。随着现代工业技术的飞速发展,对系统的可靠性的要求
期刊
[摘 要]根据实验室认可要求和实验室自身发展的需要,对5052H32铝合金带材拉伸试验常用技术指标抗拉强度测量不确定度来源进行分析,并对试验结果不确定度进行了评定与计算。  [关键词]铝合金 不确定度 抗拉强度  中图分类号:E231 文献标识码:A 文章编号:1009-914X(2019)06-0390-02  测量不确定度是对测量结果的定量表征,它是由于试验各环节存在的测量误差引发的。测量结果
期刊