论文部分内容阅读
摘要: 停电敏感预测是保障停电管理工作,提升客户体验的有效举措。本文将随机森林模型引入停电敏感预测中,并将预测结果与停电工单结合输出停电敏感高风险、中风险、低风险用户。在此基础上,以浙江湖州市2016年1月1日至2018年12月31日的数据为例进行了实例验证。模型结果显示,随机森林的预测结果准确性为88%,模型覆盖率为76.5%,模型的AUC值为0.77,结果优于逻辑回归和神经网络模型,模型的优良性为电网客户服务风险提供有力的数据参考。
关键词: 停电敏感模型 大数据 随机森林算法
Abstract: blackout sensitive prediction is an effective measure to ensure blackout management and improve customer experience. In this paper, the stochastic forest model is introduced into the blackout sensitive forecasting, and the forecasting results are combined with the blackout work in order to output the users with high, medium and low risk. On this basis, the data from January 1, 2016 to December 31, 2018 in Huzhou City, Zhejiang Province are taken as an example to verify. The results of the model show that the accuracy of the prediction results of random forest is 88%, the coverage rate of the model is 76.5%, and the AUC value of the model is 0.77, which is superior to the logistic regression and neural network models. The excellence of the model provides a powerful data reference for the risk of grid customer service.
Key words: blackout sensitive model big data random forest algorithm
1 引言
随着电力体制改革的纵向推进,电网正由生产型性质向营销型性质转变。【1】如何把握客户对电网公司的消费体验,关系到电网公司对市场的占有程度。准确分析影响客户用电体验的因素,成为各大售电公司抢占市场先机的前提条件。当前,停电问题依然是影響客户体验的核心问题,对停电敏感用户的精准识别则是电网公司进行差异化预维护的重要举措。【2】而停电敏感识别中停电敏感用户的概念界定在营销侧仍然存在着争议,在此基础上形成的标签规则不尽相同。另一方面,电网数据量的急剧增长,以传统的统计手段不足以支撑海量数据的处理。【3】因此,对停电敏感用户的分析研究仍然有待加强。
针对停电敏感用户的概念界定,文献大多是从客户行为、停电影响、用电特征上进行界定。客户行为上,一般认为客户在发生停电事故后拨打95598客服热线投诉定义为停电敏感用户。停电影响上,停电敏感用户主要是指一旦发生停电事件,将会带来巨大经济损失的用户。【4】而在用电特征上,往往将用电高峰期(夏季、冬季或者晚上)频繁停电的用户归为停电敏感用户。【5】本文认为,客户行为上的界定仅针对客户的停电投诉行为。从停电影响上去定义停电敏感用户,还需要进一步区分经济损失的级别。从停电影响上定义,则会泛化停电敏感,并且用电高峰的定义同样需要进一步界定。结合现有文献对停电敏感的界定,本文认为停电敏感用户是指用户在发生停电事故后拨打95598客服热线投诉或者客户向95598热线提出停电方面的意见。之所以将提出停电方面的意见纳入概念考量是因为停电意见工单在某种程度上隐含了停电影响、用电特征方面界定的停电敏感。一般而言,用户只有在停电将会给自身效用造成损失的情况下才会倾向于提出意见。从客户行为上完善停电敏感的定义,将会更加有效地筛选出停电敏感人群。
对于海量数据的处理,当前的大数据技术已经渗透到诸多领域。电信公司针对各类消费群体,运用机器学习方法,制定不同套餐策略,显著降低客户流失率;阿里巴巴集团利用大数据技术为用户提供信用服务,并针对用户的浏览记录推荐相应的产品。【6】电力大数据应用方面,包含通过神经网络模型对用电客户分时电价进行分类【7】;通过聚类算法对停电敏感用户进行分类【8】;通过决策树模型和逻辑回归模型刻画停电敏感用户【9】。诸多研究中,甚少根据机器学习方法对停电敏感用户领域进行分析并预测。基于此,本文将根据随机森林算法构建停电敏感用户模型,并根据算法预测结果结合用户停电敏感标签对用户进行停电高敏感、中敏感、低敏感划分,帮助营销、运检、客户部门提供数据支撑,助力电网营销管理。
本文首先对用电敏感用户进行概念界定,通过业务梳理和专家建议构建指标体系;其次,运用随机森林算法进行停电敏感用户预测;最后,结合预测结果和事实敏感用户区分停电高敏感、中敏感、低敏感用户。本文的创新点在于:(1)将停电敏感用户定义进行完善,并在概念界定基础上构建停电指标体系。(2)将机器学习中随机森林算法运用到停电敏感模型中,并比较神经网络、逻辑回归模型,加强了模型的稳健性。(3)将随机森林算法得到的停电敏感用户预测与事实停电敏感用户结合,区分了停电高敏感、停电中敏感、停电低敏感用户。 2基于随机森林预测模型的建立
2.1随机森林算法原理
随机森林算法于2001年由Leo Breiman提出,是一种集成学习方法,以决策树为基本学习单元,包含多个由Bagging集成学习理论和随机子空间方法训练得到的决策树输入待分类的样本,由各个决策树产生各分类结果,最终的分类结果由各个决策树的结果进行投票决定。其核心思想包含Bagging思想和随机子空间思想,其本质是利用组合多颗决策树做出预测的多决策树模型。如图1所示,随机森林的具体操作步骤如下:
(1)基于原始训练集,运用bootstrap方法有放回地随机抽取K个新的自助样本集。在此基础上构建K棵分类树,未被抽取的样本集归入
(2)设置N个特征项,在每棵树的对应节点处随机抽取
个特征,计算每个特征蕴含的信息量,通过选取最具分类能力的特征进行节点分裂。
(3)综合生成的分类树组合成随机森林,再在新的数据上进行分类,根据分类器挑选、评估并最终确定分类结果。
随机森林不仅可以克服决策树的一些不足,而且具有良好的可扩展性和并行性,能够有效解决大数据的快速处理问题。因其分类速度快,可解释性强,可操作变量集大等优点被广泛应用于电力、能源、医学、金融等各行业分类问题中。本文的停电敏感用户识别问题中,需要根据用户停电维度、用户信息维度、用户标签维度的数据进行特征分类,输出停电敏感分类结果。考虑到随机森林模型能够有效地解释每个维度的重要性,并对于输出结果有较高的准确性,因此,本文依据随机森林算法区分停电敏感事件。模型预测结果的可靠性一般由模型准确率、模型覆盖率、模型提升度反映,具体公式为:
对模型评判效果评价的另一重要指标为ROC,ROC曲线简称受试者工作特征曲线,它关注的是TPR、FPR两个指标。其中,TPR是判定的停电敏感数占真正停电敏感数的比重,FPR是判定为停电敏感的非停电敏感占真正非停电敏感的比重。ROC曲线的横坐标是特异度(FPR),纵坐标是灵敏度(TPR)。以中间的基线作为参照线,参照线和下部分组成的面积是0.5,越靠近参照线的准确率越低。我们称ROC曲线下的面积为AUC (Area Under Curve) ,AUC的值小于1。 AUC的值越大分类器的正确率越高。AUC=1,完美分类器,绝大多数预测场合不存在完美分类器; 0. 5<AUC<1,优于随机猜测,该分类器在设定不同值时能够有效预测;AUC=0. 5,跟随机猜测一样。【11】
2.2停电敏感用户模型构建
考虑到对业务的理解和专家咨询,我们对停电敏感用户的定义为用户在发生停电事故后拨打95598客服热线投诉或者向95598热线提出停电方面意见的工单用户。因此将投诉和意见工单中涉及到停电问题的工单用户列为标签项,特征项选取了停电信息、用户信息、客户标签三个维度的13个指标。具体指标体系见表1,数据源取自营销系统、客服系统、用采系统。样本数据预处理步骤如下:
通过对样本数据的预处理,确保数据的完整性、有效性、可用性。在此基础上,将样本数据进行bootstrap自助取数,并用随机森林算法进行训练。通过调整模型参数来不断优化模型性能,最终建立最佳的评价模型以得到理想的实验结果。
得到一个理想的实验结果后,本文根据随机森林预测的结果结合历史诉求工单记录,输出停电敏感高、中、低风险用户。如表2所示,当随机森林算法预测出用户为停电敏感用户时,如果历史工单中也存在历史诉求工单,那么将该用户识别为停电敏感高风险用户;当随机森林算法预测出用户为停电敏感用户时,如果历史工单中未存在历史诉求工单,那么将该用户识别为停电敏感中风险用户;当随机森林算法预测出用户为非停电敏感用户时,如果历史工单中存在历史诉求工单,那么将该用户识别为停电敏感低风险用户。
3实例验证
本文选取了2016年1月1日至2018年12月31日的浙江湖州所有投诉、意见工单中停电用户数据作为标签数据,并关联客户基本属性、停复电记录及电费缴纳情况,通过样本的预处理整理出28349例样本数据,其中771例正样本,27578例负样本。
将整理出的数据进行随机森林训练,以特征数据与标注数据配对的形式作为模型输入,输出每行样本对应的停电敏感度(值域介于0-1之间)。随机森林的原始算法默认选择0.5样本判定标准(即敏感度大于0.5被标记敏感用户),通过手动调整阈值,来改变潜在停电敏感用户数占参与建模用户总数的比例,使之与实际业务情况相匹配。通过不同阈值的调整(调整精度为0.05),经过上述公式的计算结果对比,如图所示,当阈值大于等于0.45以后覆盖率下降十分明显,而准确率提升不明显,同样当阈值小于等于0.45后,模型覆盖率提升不明显,而准确率下降明显。故最终确定模型阈值为0.45,对应的准确率为88%,模型覆盖率为76.5%。
算法通过标注数据不断修正内部参数,直到输出值域标注數据最大程度的接近,最终选定150棵决策树及7个分支。在阈值为0.45的水平下,模型的模型覆盖率准确率为88%,模型覆盖率为76.5%。图2是正样本数据的模型覆盖情况,可以看出,对于事实停电敏感用户,随机森林算法预测出的正确性为77%。 在算法训练过程中进行结构参数、标准化规则、变量筛选、阈值参数等超参调整,算法训练过程ROC曲线图如图1所示,得到的AUC值为0.77,表明随机森林算法预测模型得到有效验证。
4稳健性检验
为了验证模型的稳健性,本文样本数据还进行了逻辑回归、神经网络模型训练。逻辑回归算法的资源占用率低,实现难度低,被广泛应用于工业领域,易于解释和理解,但是邏辑回归算法仅支持二分类,对高维数据的拟合能力较差,准确度不高,无法有效处理多类和非线性特征变量。而神经网络模型应用领域同样广泛,算法准确性上限极高,且具备较强的自我学习能力,但是模型往往缺乏可解释性,且必须基于海量数据进行学习。资源占用量及时间成本模型复杂度呈指数级增长。
依据逻辑回归算法、神经网络模型算法得到的结果显示,逻辑回归的Auc值为0.62,算法处理时间为2.7秒,神经网络的Auc值为0.7,处理时间为380秒。相比较于逻辑回归算法和神经网络算法,随机森林具有较高的Auc值(0.77),时间上仅用9.7秒。综合训练结果,随机森林算法最适合于停电敏感用户识别场景,具体训练结果如表2所示:
5结论
本文基于随机森林算法构建电力敏感模型,根据整理的28349例样本数据进行随机森林算法训练,训练结果显示模型阈值为0.45,对应的准确率为88%,模型覆盖率为76.5%。在与逻辑回归、神经网路模型进行对比时发现,随机森林的Auc值为0.77,逻辑回归的Auc值为0.62,神经网络的Auc值为0.77,可以得出,在用电敏感用户识别模场景型中,随机森林要优于逻辑回归和神经网络模型。在此基础上,本文还进一步区分了停电高敏感风险、停电中敏感风险、停电低敏感风险用户。
当前,我国经济社会正由高速度发展向高质量发展转型,客户对供电服务预期水平不断提高,供电服务风险也随之增加。传统的电力客户细分营销体系已经不能适应供电服务风险防控的现实需要,而识别停电敏感风险,个性化服务用户为提升用户体验提供一种思路。本文的建议是以提前预判停电敏感风险为抓手,集中主要精力应对停电高敏感、中敏感用户,差异化策略营销,将会逐步提升用户满意度,助力电网体制改革的纵向推进。
参考文献
[1]胡晨,杜松怀,苏娟,等.新电改背景下我国售电公司的购售电途径与经营模式探讨[J].电网技术,2016,40(11):3293-3299.
[2]葛睿,陈龙翔,王轶禹,等.中国电力市场建设路径优选及设计[[J].电力系统自动化,2017,41(24).
[3]张海云.基于数据挖掘的供电企业客户关系评估及系统开发[D].华北电力大学;华北电力大学(北京),2015.
[4]严宇平,吴广财.基于数据挖掘技术的客户停电敏感度研究与应用[J].新技术新工艺,2015(9):89-93.
[5]李天友,赵会茹,乞建勋,等.短时停电及其影响分析[J].中国电力,2012,(5):48-51.
[6]谭建豪等.数据挖掘技术[M].中国水利水电出版社,2009.
[7]程丽冰.大数据时代的电力客户分群管理应用研究[D].华南理工大学,2016.
[8]郑芒英.用电客户停电敏感度分析[D].华南理工大学,2014.
[9]黄敏如.基于大数据挖掘的东莞电力客户价值分析及应用[D].华南理工大学,2015.
[10]何清,李宁,罗文娟,等.大数据下的机器学习算法综述[J].模式识别与人工智能,2013,26(4):327-336.
[11]王雷.基于数据挖掘的电力行业客户细分模型研究[D].上海交通大学,2007.
关键词: 停电敏感模型 大数据 随机森林算法
Abstract: blackout sensitive prediction is an effective measure to ensure blackout management and improve customer experience. In this paper, the stochastic forest model is introduced into the blackout sensitive forecasting, and the forecasting results are combined with the blackout work in order to output the users with high, medium and low risk. On this basis, the data from January 1, 2016 to December 31, 2018 in Huzhou City, Zhejiang Province are taken as an example to verify. The results of the model show that the accuracy of the prediction results of random forest is 88%, the coverage rate of the model is 76.5%, and the AUC value of the model is 0.77, which is superior to the logistic regression and neural network models. The excellence of the model provides a powerful data reference for the risk of grid customer service.
Key words: blackout sensitive model big data random forest algorithm
1 引言
随着电力体制改革的纵向推进,电网正由生产型性质向营销型性质转变。【1】如何把握客户对电网公司的消费体验,关系到电网公司对市场的占有程度。准确分析影响客户用电体验的因素,成为各大售电公司抢占市场先机的前提条件。当前,停电问题依然是影響客户体验的核心问题,对停电敏感用户的精准识别则是电网公司进行差异化预维护的重要举措。【2】而停电敏感识别中停电敏感用户的概念界定在营销侧仍然存在着争议,在此基础上形成的标签规则不尽相同。另一方面,电网数据量的急剧增长,以传统的统计手段不足以支撑海量数据的处理。【3】因此,对停电敏感用户的分析研究仍然有待加强。
针对停电敏感用户的概念界定,文献大多是从客户行为、停电影响、用电特征上进行界定。客户行为上,一般认为客户在发生停电事故后拨打95598客服热线投诉定义为停电敏感用户。停电影响上,停电敏感用户主要是指一旦发生停电事件,将会带来巨大经济损失的用户。【4】而在用电特征上,往往将用电高峰期(夏季、冬季或者晚上)频繁停电的用户归为停电敏感用户。【5】本文认为,客户行为上的界定仅针对客户的停电投诉行为。从停电影响上去定义停电敏感用户,还需要进一步区分经济损失的级别。从停电影响上定义,则会泛化停电敏感,并且用电高峰的定义同样需要进一步界定。结合现有文献对停电敏感的界定,本文认为停电敏感用户是指用户在发生停电事故后拨打95598客服热线投诉或者客户向95598热线提出停电方面的意见。之所以将提出停电方面的意见纳入概念考量是因为停电意见工单在某种程度上隐含了停电影响、用电特征方面界定的停电敏感。一般而言,用户只有在停电将会给自身效用造成损失的情况下才会倾向于提出意见。从客户行为上完善停电敏感的定义,将会更加有效地筛选出停电敏感人群。
对于海量数据的处理,当前的大数据技术已经渗透到诸多领域。电信公司针对各类消费群体,运用机器学习方法,制定不同套餐策略,显著降低客户流失率;阿里巴巴集团利用大数据技术为用户提供信用服务,并针对用户的浏览记录推荐相应的产品。【6】电力大数据应用方面,包含通过神经网络模型对用电客户分时电价进行分类【7】;通过聚类算法对停电敏感用户进行分类【8】;通过决策树模型和逻辑回归模型刻画停电敏感用户【9】。诸多研究中,甚少根据机器学习方法对停电敏感用户领域进行分析并预测。基于此,本文将根据随机森林算法构建停电敏感用户模型,并根据算法预测结果结合用户停电敏感标签对用户进行停电高敏感、中敏感、低敏感划分,帮助营销、运检、客户部门提供数据支撑,助力电网营销管理。
本文首先对用电敏感用户进行概念界定,通过业务梳理和专家建议构建指标体系;其次,运用随机森林算法进行停电敏感用户预测;最后,结合预测结果和事实敏感用户区分停电高敏感、中敏感、低敏感用户。本文的创新点在于:(1)将停电敏感用户定义进行完善,并在概念界定基础上构建停电指标体系。(2)将机器学习中随机森林算法运用到停电敏感模型中,并比较神经网络、逻辑回归模型,加强了模型的稳健性。(3)将随机森林算法得到的停电敏感用户预测与事实停电敏感用户结合,区分了停电高敏感、停电中敏感、停电低敏感用户。 2基于随机森林预测模型的建立
2.1随机森林算法原理
随机森林算法于2001年由Leo Breiman提出,是一种集成学习方法,以决策树为基本学习单元,包含多个由Bagging集成学习理论和随机子空间方法训练得到的决策树输入待分类的样本,由各个决策树产生各分类结果,最终的分类结果由各个决策树的结果进行投票决定。其核心思想包含Bagging思想和随机子空间思想,其本质是利用组合多颗决策树做出预测的多决策树模型。如图1所示,随机森林的具体操作步骤如下:
(1)基于原始训练集,运用bootstrap方法有放回地随机抽取K个新的自助样本集。在此基础上构建K棵分类树,未被抽取的样本集归入
(2)设置N个特征项,在每棵树的对应节点处随机抽取
个特征,计算每个特征蕴含的信息量,通过选取最具分类能力的特征进行节点分裂。
(3)综合生成的分类树组合成随机森林,再在新的数据上进行分类,根据分类器挑选、评估并最终确定分类结果。
随机森林不仅可以克服决策树的一些不足,而且具有良好的可扩展性和并行性,能够有效解决大数据的快速处理问题。因其分类速度快,可解释性强,可操作变量集大等优点被广泛应用于电力、能源、医学、金融等各行业分类问题中。本文的停电敏感用户识别问题中,需要根据用户停电维度、用户信息维度、用户标签维度的数据进行特征分类,输出停电敏感分类结果。考虑到随机森林模型能够有效地解释每个维度的重要性,并对于输出结果有较高的准确性,因此,本文依据随机森林算法区分停电敏感事件。模型预测结果的可靠性一般由模型准确率、模型覆盖率、模型提升度反映,具体公式为:
对模型评判效果评价的另一重要指标为ROC,ROC曲线简称受试者工作特征曲线,它关注的是TPR、FPR两个指标。其中,TPR是判定的停电敏感数占真正停电敏感数的比重,FPR是判定为停电敏感的非停电敏感占真正非停电敏感的比重。ROC曲线的横坐标是特异度(FPR),纵坐标是灵敏度(TPR)。以中间的基线作为参照线,参照线和下部分组成的面积是0.5,越靠近参照线的准确率越低。我们称ROC曲线下的面积为AUC (Area Under Curve) ,AUC的值小于1。 AUC的值越大分类器的正确率越高。AUC=1,完美分类器,绝大多数预测场合不存在完美分类器; 0. 5<AUC<1,优于随机猜测,该分类器在设定不同值时能够有效预测;AUC=0. 5,跟随机猜测一样。【11】
2.2停电敏感用户模型构建
考虑到对业务的理解和专家咨询,我们对停电敏感用户的定义为用户在发生停电事故后拨打95598客服热线投诉或者向95598热线提出停电方面意见的工单用户。因此将投诉和意见工单中涉及到停电问题的工单用户列为标签项,特征项选取了停电信息、用户信息、客户标签三个维度的13个指标。具体指标体系见表1,数据源取自营销系统、客服系统、用采系统。样本数据预处理步骤如下:
- 统计出用户每个月的停电次数、停电时长、停电类型、影响人数、欠费情况并进行关联。
- 基于用户户号、月份两个指标将停电信息、用户信息、客户标签维度的指标进行关联。需要注意的是,用户欠费信息与用户停电事件不一定同时发生。所以优先将用户欠费信息与用户停电事件进行全关联,在此基础上关联其他指标。
- 对样本数据进行缺失值、离群值、异常值处理,并将停电次数、停电时长、合同容量进行标准化处理。
通过对样本数据的预处理,确保数据的完整性、有效性、可用性。在此基础上,将样本数据进行bootstrap自助取数,并用随机森林算法进行训练。通过调整模型参数来不断优化模型性能,最终建立最佳的评价模型以得到理想的实验结果。
得到一个理想的实验结果后,本文根据随机森林预测的结果结合历史诉求工单记录,输出停电敏感高、中、低风险用户。如表2所示,当随机森林算法预测出用户为停电敏感用户时,如果历史工单中也存在历史诉求工单,那么将该用户识别为停电敏感高风险用户;当随机森林算法预测出用户为停电敏感用户时,如果历史工单中未存在历史诉求工单,那么将该用户识别为停电敏感中风险用户;当随机森林算法预测出用户为非停电敏感用户时,如果历史工单中存在历史诉求工单,那么将该用户识别为停电敏感低风险用户。
3实例验证
本文选取了2016年1月1日至2018年12月31日的浙江湖州所有投诉、意见工单中停电用户数据作为标签数据,并关联客户基本属性、停复电记录及电费缴纳情况,通过样本的预处理整理出28349例样本数据,其中771例正样本,27578例负样本。
将整理出的数据进行随机森林训练,以特征数据与标注数据配对的形式作为模型输入,输出每行样本对应的停电敏感度(值域介于0-1之间)。随机森林的原始算法默认选择0.5样本判定标准(即敏感度大于0.5被标记敏感用户),通过手动调整阈值,来改变潜在停电敏感用户数占参与建模用户总数的比例,使之与实际业务情况相匹配。通过不同阈值的调整(调整精度为0.05),经过上述公式的计算结果对比,如图所示,当阈值大于等于0.45以后覆盖率下降十分明显,而准确率提升不明显,同样当阈值小于等于0.45后,模型覆盖率提升不明显,而准确率下降明显。故最终确定模型阈值为0.45,对应的准确率为88%,模型覆盖率为76.5%。
算法通过标注数据不断修正内部参数,直到输出值域标注數据最大程度的接近,最终选定150棵决策树及7个分支。在阈值为0.45的水平下,模型的模型覆盖率准确率为88%,模型覆盖率为76.5%。图2是正样本数据的模型覆盖情况,可以看出,对于事实停电敏感用户,随机森林算法预测出的正确性为77%。 在算法训练过程中进行结构参数、标准化规则、变量筛选、阈值参数等超参调整,算法训练过程ROC曲线图如图1所示,得到的AUC值为0.77,表明随机森林算法预测模型得到有效验证。
4稳健性检验
为了验证模型的稳健性,本文样本数据还进行了逻辑回归、神经网络模型训练。逻辑回归算法的资源占用率低,实现难度低,被广泛应用于工业领域,易于解释和理解,但是邏辑回归算法仅支持二分类,对高维数据的拟合能力较差,准确度不高,无法有效处理多类和非线性特征变量。而神经网络模型应用领域同样广泛,算法准确性上限极高,且具备较强的自我学习能力,但是模型往往缺乏可解释性,且必须基于海量数据进行学习。资源占用量及时间成本模型复杂度呈指数级增长。
依据逻辑回归算法、神经网络模型算法得到的结果显示,逻辑回归的Auc值为0.62,算法处理时间为2.7秒,神经网络的Auc值为0.7,处理时间为380秒。相比较于逻辑回归算法和神经网络算法,随机森林具有较高的Auc值(0.77),时间上仅用9.7秒。综合训练结果,随机森林算法最适合于停电敏感用户识别场景,具体训练结果如表2所示:
5结论
本文基于随机森林算法构建电力敏感模型,根据整理的28349例样本数据进行随机森林算法训练,训练结果显示模型阈值为0.45,对应的准确率为88%,模型覆盖率为76.5%。在与逻辑回归、神经网路模型进行对比时发现,随机森林的Auc值为0.77,逻辑回归的Auc值为0.62,神经网络的Auc值为0.77,可以得出,在用电敏感用户识别模场景型中,随机森林要优于逻辑回归和神经网络模型。在此基础上,本文还进一步区分了停电高敏感风险、停电中敏感风险、停电低敏感风险用户。
当前,我国经济社会正由高速度发展向高质量发展转型,客户对供电服务预期水平不断提高,供电服务风险也随之增加。传统的电力客户细分营销体系已经不能适应供电服务风险防控的现实需要,而识别停电敏感风险,个性化服务用户为提升用户体验提供一种思路。本文的建议是以提前预判停电敏感风险为抓手,集中主要精力应对停电高敏感、中敏感用户,差异化策略营销,将会逐步提升用户满意度,助力电网体制改革的纵向推进。
参考文献
[1]胡晨,杜松怀,苏娟,等.新电改背景下我国售电公司的购售电途径与经营模式探讨[J].电网技术,2016,40(11):3293-3299.
[2]葛睿,陈龙翔,王轶禹,等.中国电力市场建设路径优选及设计[[J].电力系统自动化,2017,41(24).
[3]张海云.基于数据挖掘的供电企业客户关系评估及系统开发[D].华北电力大学;华北电力大学(北京),2015.
[4]严宇平,吴广财.基于数据挖掘技术的客户停电敏感度研究与应用[J].新技术新工艺,2015(9):89-93.
[5]李天友,赵会茹,乞建勋,等.短时停电及其影响分析[J].中国电力,2012,(5):48-51.
[6]谭建豪等.数据挖掘技术[M].中国水利水电出版社,2009.
[7]程丽冰.大数据时代的电力客户分群管理应用研究[D].华南理工大学,2016.
[8]郑芒英.用电客户停电敏感度分析[D].华南理工大学,2014.
[9]黄敏如.基于大数据挖掘的东莞电力客户价值分析及应用[D].华南理工大学,2015.
[10]何清,李宁,罗文娟,等.大数据下的机器学习算法综述[J].模式识别与人工智能,2013,26(4):327-336.
[11]王雷.基于数据挖掘的电力行业客户细分模型研究[D].上海交通大学,2007.