一种基于随机森林的停电敏感模型

来源 :中国电气工程学报 | 被引量 : 0次 | 上传用户：cngd0613

【摘要】

：

【作者】

：

王洋　吕斌斌　严冬　闻俊义　季小雨　陈力

【出处】

：

中国电气工程学报

【发表日期】

：

2020年4期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：停电敏感预测是保障停电管理工作，提升客户体验的有效举措。本文将随机森林模型引入停电敏感预测中，并将预测结果与停电工单结合输出停电敏感高风险、中风险、低风险用户。在此基础上，以浙江湖州市2016年1月1日至2018年12月31日的数据为例进行了实例验证。模型结果显示，随机森林的预测结果准确性为88%，模型覆盖率为76.5%，模型的AUC值为0.77，结果优于逻辑回归和神经网络模型，模型的优良性为电网客户服务风险提供有力的数据参考。
　　关键词：停电敏感模型大数据随机森林算法
　　Abstract： blackout sensitive prediction is an effective measure to ensure blackout management and improve customer experience. In this paper， the stochastic forest model is introduced into the blackout sensitive forecasting， and the forecasting results are combined with the blackout work in order to output the users with high， medium and low risk. On this basis， the data from January 1， 2016 to December 31， 2018 in Huzhou City， Zhejiang Province are taken as an example to verify. The results of the model show that the accuracy of the prediction results of random forest is 88%， the coverage rate of the model is 76.5%， and the AUC value of the model is 0.77， which is superior to the logistic regression and neural network models. The excellence of the model provides a powerful data reference for the risk of grid customer service.
　　Key words： blackout sensitive model big data random forest algorithm
　　1 引言
　　随着电力体制改革的纵向推进，电网正由生产型性质向营销型性质转变。^【1】如何把握客户对电网公司的消费体验，关系到电网公司对市场的占有程度。准确分析影响客户用电体验的因素，成为各大售电公司抢占市场先机的前提条件。当前，停电问题依然是影響客户体验的核心问题，对停电敏感用户的精准识别则是电网公司进行差异化预维护的重要举措。^【2】而停电敏感识别中停电敏感用户的概念界定在营销侧仍然存在着争议，在此基础上形成的标签规则不尽相同。另一方面，电网数据量的急剧增长，以传统的统计手段不足以支撑海量数据的处理。^【3】因此，对停电敏感用户的分析研究仍然有待加强。
　　针对停电敏感用户的概念界定，文献大多是从客户行为、停电影响、用电特征上进行界定。客户行为上，一般认为客户在发生停电事故后拨打95598客服热线投诉定义为停电敏感用户。停电影响上，停电敏感用户主要是指一旦发生停电事件，将会带来巨大经济损失的用户。^【4】而在用电特征上，往往将用电高峰期（夏季、冬季或者晚上）频繁停电的用户归为停电敏感用户。^【5】本文认为，客户行为上的界定仅针对客户的停电投诉行为。从停电影响上去定义停电敏感用户，还需要进一步区分经济损失的级别。从停电影响上定义，则会泛化停电敏感，并且用电高峰的定义同样需要进一步界定。结合现有文献对停电敏感的界定，本文认为停电敏感用户是指用户在发生停电事故后拨打95598客服热线投诉或者客户向95598热线提出停电方面的意见。之所以将提出停电方面的意见纳入概念考量是因为停电意见工单在某种程度上隐含了停电影响、用电特征方面界定的停电敏感。一般而言，用户只有在停电将会给自身效用造成损失的情况下才会倾向于提出意见。从客户行为上完善停电敏感的定义，将会更加有效地筛选出停电敏感人群。
　　对于海量数据的处理，当前的大数据技术已经渗透到诸多领域。电信公司针对各类消费群体，运用机器学习方法，制定不同套餐策略，显著降低客户流失率;阿里巴巴集团利用大数据技术为用户提供信用服务，并针对用户的浏览记录推荐相应的产品。^【6】电力大数据应用方面，包含通过神经网络模型对用电客户分时电价进行分类^【7】;通过聚类算法对停电敏感用户进行分类^【8】;通过决策树模型和逻辑回归模型刻画停电敏感用户^【9】。诸多研究中，甚少根据机器学习方法对停电敏感用户领域进行分析并预测。基于此，本文将根据随机森林算法构建停电敏感用户模型，并根据算法预测结果结合用户停电敏感标签对用户进行停电高敏感、中敏感、低敏感划分，帮助营销、运检、客户部门提供数据支撑，助力电网营销管理。
　　本文首先对用电敏感用户进行概念界定，通过业务梳理和专家建议构建指标体系;其次，运用随机森林算法进行停电敏感用户预测;最后，结合预测结果和事实敏感用户区分停电高敏感、中敏感、低敏感用户。本文的创新点在于：（1）将停电敏感用户定义进行完善，并在概念界定基础上构建停电指标体系。（2）将机器学习中随机森林算法运用到停电敏感模型中，并比较神经网络、逻辑回归模型，加强了模型的稳健性。（3）将随机森林算法得到的停电敏感用户预测与事实停电敏感用户结合，区分了停电高敏感、停电中敏感、停电低敏感用户。　　2基于随机森林预测模型的建立
　　2.1随机森林算法原理
　　随机森林算法于2001年由Leo Breiman提出，是一种集成学习方法，以决策树为基本学习单元，包含多个由Bagging集成学习理论和随机子空间方法训练得到的决策树输入待分类的样本，由各个决策树产生各分类结果，最终的分类结果由各个决策树的结果进行投票决定。其核心思想包含Bagging思想和随机子空间思想，其本质是利用组合多颗决策树做出预测的多决策树模型。如图1所示，随机森林的具体操作步骤如下：
　　（1）基于原始训练集，运用bootstrap方法有放回地随机抽取K个新的自助样本集。在此基础上构建K棵分类树，未被抽取的样本集归入
　　（2）设置N个特征项，在每棵树的对应节点处随机抽取

个特征，计算每个特征蕴含的信息量，通过选取最具分类能力的特征进行节点分裂。
　　（3）综合生成的分类树组合成随机森林，再在新的数据上进行分类，根据分类器挑选、评估并最终确定分类结果。
　　随机森林不仅可以克服决策树的一些不足，而且具有良好的可扩展性和并行性，能够有效解决大数据的快速处理问题。因其分类速度快，可解释性强，可操作变量集大等优点被广泛应用于电力、能源、医学、金融等各行业分类问题中。本文的停电敏感用户识别问题中，需要根据用户停电维度、用户信息维度、用户标签维度的数据进行特征分类，输出停电敏感分类结果。考虑到随机森林模型能够有效地解释每个维度的重要性，并对于输出结果有较高的准确性，因此，本文依据随机森林算法区分停电敏感事件。模型预测结果的可靠性一般由模型准确率、模型覆盖率、模型提升度反映，具体公式为：
　　对模型评判效果评价的另一重要指标为ROC，ROC曲线简称受试者工作特征曲线，它关注的是TPR、FPR两个指标。其中，TPR是判定的停电敏感数占真正停电敏感数的比重，FPR是判定为停电敏感的非停电敏感占真正非停电敏感的比重。ROC曲线的横坐标是特异度（FPR），纵坐标是灵敏度（TPR）。以中间的基线作为参照线，参照线和下部分组成的面积是0.5，越靠近参照线的准确率越低。我们称ROC曲线下的面积为AUC （Area Under Curve），AUC的值小于1。 AUC的值越大分类器的正确率越高。AUC=1，完美分类器，绝大多数预测场合不存在完美分类器; 0. 5<AUC<1，优于随机猜测，该分类器在设定不同值时能够有效预测;AUC=0. 5，跟随机猜测一样。^【11】
　　2.2停电敏感用户模型构建
　　考虑到对业务的理解和专家咨询，我们对停电敏感用户的定义为用户在发生停电事故后拨打95598客服热线投诉或者向95598热线提出停电方面意见的工单用户。因此将投诉和意见工单中涉及到停电问题的工单用户列为标签项，特征项选取了停电信息、用户信息、客户标签三个维度的13个指标。具体指标体系见表1，数据源取自营销系统、客服系统、用采系统。样本数据预处理步骤如下：

统计出用户每个月的停电次数、停电时长、停电类型、影响人数、欠费情况并进行关联。
基于用户户号、月份两个指标将停电信息、用户信息、客户标签维度的指标进行关联。需要注意的是，用户欠费信息与用户停电事件不一定同时发生。所以优先将用户欠费信息与用户停电事件进行全关联，在此基础上关联其他指标。
对样本数据进行缺失值、离群值、异常值处理，并将停电次数、停电时长、合同容量进行标准化处理。

　　通过对样本数据的预处理，确保数据的完整性、有效性、可用性。在此基础上，将样本数据进行bootstrap自助取数，并用随机森林算法进行训练。通过调整模型参数来不断优化模型性能，最终建立最佳的评价模型以得到理想的实验结果。
　　得到一个理想的实验结果后，本文根据随机森林预测的结果结合历史诉求工单记录，输出停电敏感高、中、低风险用户。如表2所示，当随机森林算法预测出用户为停电敏感用户时，如果历史工单中也存在历史诉求工单，那么将该用户识别为停电敏感高风险用户;当随机森林算法预测出用户为停电敏感用户时，如果历史工单中未存在历史诉求工单，那么将该用户识别为停电敏感中风险用户;当随机森林算法预测出用户为非停电敏感用户时，如果历史工单中存在历史诉求工单，那么将该用户识别为停电敏感低风险用户。
　　 3实例验证
　　本文选取了2016年1月1日至2018年12月31日的浙江湖州所有投诉、意见工单中停电用户数据作为标签数据，并关联客户基本属性、停复电记录及电费缴纳情况，通过样本的预处理整理出28349例样本数据，其中771例正样本，27578例负样本。
　　将整理出的数据进行随机森林训练，以特征数据与标注数据配对的形式作为模型输入，输出每行样本对应的停电敏感度（值域介于0-1之间）。随机森林的原始算法默认选择0.5样本判定标准（即敏感度大于0.5被标记敏感用户），通过手动调整阈值，来改变潜在停电敏感用户数占参与建模用户总数的比例，使之与实际业务情况相匹配。通过不同阈值的调整（调整精度为0.05），经过上述公式的计算结果对比，如图所示，当阈值大于等于0.45以后覆盖率下降十分明显，而准确率提升不明显，同样当阈值小于等于0.45后，模型覆盖率提升不明显，而准确率下降明显。故最终确定模型阈值为0.45，对应的准确率为88%，模型覆盖率为76.5%。
　　算法通过标注数据不断修正内部参数，直到输出值域标注數据最大程度的接近，最终选定150棵决策树及7个分支。在阈值为0.45的水平下，模型的模型覆盖率准确率为88%，模型覆盖率为76.5%。图2是正样本数据的模型覆盖情况，可以看出，对于事实停电敏感用户，随机森林算法预测出的正确性为77%。　　在算法训练过程中进行结构参数、标准化规则、变量筛选、阈值参数等超参调整，算法训练过程ROC曲线图如图1所示，得到的AUC值为0.77，表明随机森林算法预测模型得到有效验证。
　　4稳健性检验
　　为了验证模型的稳健性，本文样本数据还进行了逻辑回归、神经网络模型训练。逻辑回归算法的资源占用率低，实现难度低，被广泛应用于工业领域，易于解释和理解，但是邏辑回归算法仅支持二分类，对高维数据的拟合能力较差，准确度不高，无法有效处理多类和非线性特征变量。而神经网络模型应用领域同样广泛，算法准确性上限极高，且具备较强的自我学习能力，但是模型往往缺乏可解释性，且必须基于海量数据进行学习。资源占用量及时间成本模型复杂度呈指数级增长。
　　依据逻辑回归算法、神经网络模型算法得到的结果显示，逻辑回归的Auc值为0.62，算法处理时间为2.7秒，神经网络的Auc值为0.7，处理时间为380秒。相比较于逻辑回归算法和神经网络算法，随机森林具有较高的Auc值（0.77），时间上仅用9.7秒。综合训练结果，随机森林算法最适合于停电敏感用户识别场景，具体训练结果如表2所示：
　　5结论
　　本文基于随机森林算法构建电力敏感模型，根据整理的28349例样本数据进行随机森林算法训练，训练结果显示模型阈值为0.45，对应的准确率为88%，模型覆盖率为76.5%。在与逻辑回归、神经网路模型进行对比时发现，随机森林的Auc值为0.77，逻辑回归的Auc值为0.62，神经网络的Auc值为0.77，可以得出，在用电敏感用户识别模场景型中，随机森林要优于逻辑回归和神经网络模型。在此基础上，本文还进一步区分了停电高敏感风险、停电中敏感风险、停电低敏感风险用户。
　　当前，我国经济社会正由高速度发展向高质量发展转型，客户对供电服务预期水平不断提高，供电服务风险也随之增加。传统的电力客户细分营销体系已经不能适应供电服务风险防控的现实需要，而识别停电敏感风险，个性化服务用户为提升用户体验提供一种思路。本文的建议是以提前预判停电敏感风险为抓手，集中主要精力应对停电高敏感、中敏感用户，差异化策略营销，将会逐步提升用户满意度，助力电网体制改革的纵向推进。
　　参考文献
　　[1]胡晨，杜松怀，苏娟，等.新电改背景下我国售电公司的购售电途径与经营模式探讨[J].电网技术，2016，40（11）：3293-3299.
　　[2]葛睿，陈龙翔，王轶禹，等.中国电力市场建设路径优选及设计[[J].电力系统自动化，2017，41（24）.
　　[3]张海云.基于数据挖掘的供电企业客户关系评估及系统开发[D].华北电力大学;华北电力大学（北京），2015.
　　[4]严宇平，吴广财.基于数据挖掘技术的客户停电敏感度研究与应用[J].新技术新工艺，2015（9）：89-93.
　　[5]李天友，赵会茹，乞建勋，等.短时停电及其影响分析[J].中国电力，2012，（5）：48-51.
　　[6]谭建豪等.数据挖掘技术[M].中国水利水电出版社，2009.
　　[7]程丽冰.大数据时代的电力客户分群管理应用研究[D].华南理工大学，2016.
　　[8]郑芒英.用电客户停电敏感度分析[D].华南理工大学，2014.
　　[9]黄敏如.基于大数据挖掘的东莞电力客户价值分析及应用[D].华南理工大学，2015.
　　[10]何清，李宁，罗文娟，等.大数据下的机器学习算法综述[J].模式识别与人工智能，2013，26（4）：327-336.
　　[11]王雷.基于数据挖掘的电力行业客户细分模型研究[D].上海交通大学，2007.

其他文献

新形势下电厂锅炉应用在热能动力的发展与创新

摘要：发电厂生产具有高耗能、高污染特征，在新形势下，如何才够使电厂锅炉使用过程中的污染减少，提高能源利用率成为需要克服的关键问题。同时，电厂锅炉应用在热能动力中实际作用日渐凸显，不断通过创新技术，将锅炉使用效率提高，将能耗减少，可使电厂获得更高的经济及社会效益。基于此，本篇新形势下电厂锅炉应用在热能动力的发展与创新进行研究，以供参考。　　关键词：新形势;电厂锅炉;热能动力;发展与创新　　引言　　热

期刊

风电场电气设备中风力发电机的运行维护策略

摘要：我国现阶段的发电产业应用最多的是风力发电，主要的原因是清洁能源的推广普及，进一步的促进了我国的风能地区的风力发电厂的扩建。因此，就风电场电气设备中风力发电机的运行维护对策开展深度探究，结合实际风力发电机运行过程中出现的故障问题，针对性的提出多种有效管理维护方式，并结合当前存在的多种管理维护问题进行其完善以及调整，从本质的风力发电机的运行维护管理体系中提出建议点，从而最大化降低风力发电机故障

期刊

数据库设计在网站开发中的应用分析

摘要：随着互联网的出现和发展，它对社会生活的各个方面产生了深远的影响，在很大程度上改善了人们的生活方式、工作效率及工作的方式。在互联网不断深入发展的推动下，人们对于互联网也不断提出了新的发展要求，为适应互联网的发展潮流，同时也为了满足人们对互联网发展日益提高的要求，各种功能各异的网站应运而生。网站的作用可以是为企业宣传，可以是产品营销，可以是知识传递等，以满足人们的多种需求。数据库是网站开发的核心

期刊

汽泵组润滑油质频发超标的原因分析及其对策

摘要：某发电企业二期机组投产以来，汽泵组（哈尔滨汽轮机厂NGZ83.6/83.5/06型小汽机、上海电力修造总厂HPT300-340-6S/27A型汽泵）润滑油质频发超标，分析其原因，提出改进措施。实施改造后，二期机组四台汽泵组润滑油常年合格，效果显著。　　关键词：汽泵组;润滑油;油质超标;原因;对策　　0 引言　　某发电企业二期机组给水泵汽轮机为哈尔滨汽轮机厂NGZ83.6/83.5/06型

期刊

海口磷业供电系统现状研究及增容整合可行性研究

摘要：海口磷业有限公司（原三环化工）于2015年10月成立，通过引进以色列化工的先进生产管理和工艺技术，生产工艺和装备逐年改造和新增，预计三环化工110KV变电站供电负荷将在2021年达到58MW，超过变电站50MW的供电容量。三环化工110KV变电站投产较早，目前3C110KV两台主变存在不平衡，负荷分布不均匀，为消除 2 台变压器不平衡，改进站内超负荷运行的安全隐患问题，确保供电能力、供电可

期刊

火电厂发电机常见故障及检修

摘要：文章对火力发电机的常见故障及检修方法进行了系统的归纳和总结，对火力发电机的检修现状和检修管理方法进行了系统的描述。在我国，火力发电依然占据主导地位，希望相关工作者在日常的电厂发电机检修工作中负责、高效地解决火力发电机故障问题。　　关键词：火电厂;发电机;故障;维修　　引言：火力发电厂是通过燃烧将煤等燃料的化学能转化为电能，其主要设备有锅炉、汽轮机、发电机、凝汽器和回热加热器等。其中发电机是将

期刊

数据泄露——应该引起关注的安全威胁

随着通信技术的成熟发展，以大宽带、大规模链接、超低时延的智能化升级，正在逐步颠覆传统产业。与此同时安全也成为当下所有行业关注的重点对象，在频繁的网络用户实现信息交换与资源共享的同时，计算机通信网络也必须是安全的。这意味着如果敏感信息被不法分子利用，那么事情就变得复杂了。　　提到安全，很难不把注意力集中在恶意破坏、恶意更改、恶意泄露，但事实是，通过数据传输安全、上网行为安全、边界安全、移动接入安全的

期刊

基于自然语言处理的智能操作票技术的研究

摘要：近年来，随着信息技术的发展，人工智能已经成为信息时代的一个热门话题。自然语言处理（NLP）是计算机科学、人工智能和语言学的一个研究领域，主要研究计算机和人类语言之间的相互作用。该领域产生了大量的人工智能研究成果和产品，是人工智能领域的一个热点。调度操作票的智能自动生成是一项既有技术又有经验的综合性工作。本文结合自然语言处理技术和机器學习方法，基于数学理论和中文信息的MMT模型，实现了操作票内

期刊

发电厂锅炉检修中注意的问题与维护对策

摘要：当前，在发电厂生产过程中，锅炉设备运行过程中受制于自身原因及运行环境等影响，经常会发生这样或是那样的故障，影响了锅炉运行的稳定性。因此，要在日常工作中做好锅炉的维护和检修工作，针对锅炉检修工作的特点，采取切实可行的措施来提高检修工作的质量，并对检修过程中一些重要问题进行分析。　　关键词：发电厂;锅炉;检修;维护;对策　　1发电厂锅炉检修的特点　　发电厂生产过程中，锅炉运行时会受到多种因素的影

期刊

海上风力发电发展现状与展望

摘要：随着社会和科技的发展，人类对能源的需求越来越大，而可再生的清洁能源成为了当今世界主要的能源之一。风电作为清洁能源家族的一份子，得到了快速发展。本文通过对海上风力发电现状进行了研究，对未来海上风电发展做了预测。　　关键词：风力发电，清洁能源，预测　　0引言　　随着社会和科技不断进步，人类对能源的需求越来越大，随之对环境的破坏越来越严重，许多的生物和植物也随之濒临灭绝，甚至有的生物已经灭绝了，并

期刊

一种基于随机森林的停电敏感模型

与本文相关的学术论文