基于随机森林的用户行为识别模型研究

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:nihaoyuyue2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:以用户历史用电量为基础,提出了基于随机森林的用户行为识别模型,井在实验分析中与多个分类算法进行对比。实验结果表明,在用户窃电行为识别问题上,随机森林组合模型具有更高良好的识别效果。
  关键词:特征提取;用户行为识别;随机森林
  中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2017)07-0156-02
  根据国家电网公司统计,近年因窃电导致的损失达上千万元。目前,窃电行为检测更多还是采用人工现场检测的方法,该方法效率低、成本高,而且有人为的参与,不利于电力企业的管理。因此,如何使用科学的方法实现智能化的用户检测是供电企业的重要研究内容。
  1基于随机森林的用户行为识别模型
  (1)特征提取
  本文以用户最近一年的用电数据为基础,提取用户行为特征并进行用户行为识别,主要从以下四个方面进行特征提取:一是用户各个月份的用电情况,二是对用电量进行分段统计,三是用户用电的趋势,四是相邻月份用电变化情况。用户行为特征如表1所示。
  (2)随机森林模型
  随机森林是由Breiman L于2001年提出的分类预测算法,目前在个人信贷、机器用户识别、用户流失预测等分类問题上有着广泛的应用,与单模型相比,随机森林具有更强的泛化能力,能够克服单个模型过拟合的问题。
  随机森林由一组决策树组成的组合分类器(h(x,θk),k=1,2,3…K),其中θk表示独立随机变量,K表示决策树的数目,在给定X的条件下,随机森林由K棵决策树投票决定最优的分类类别。
  本文在选择分裂特征时采用Gini值测度方法,Gini值计算公式为:
  (1)
  其中,pi表示该类别i在该节点处的频率,Gini值越小,表示该节点的类别越纯,当该节点只有一个类别时,Gini值为0。
  随机森林一般情况下采用简单的投票方法进行最终的决策,即选择所有决策树中得票数最多的类别作为最终的分类结果。
  (2)
  其中,H(x)表示组合分类模型,hi(x)表示单个决策树模型,y表示目标变量,I(·)为示性函数。
  2实验分析结果
  本文以国家电网公司提供的用户用电行为数据作为实验数据,并与其他算法进行对比。
  本文采用多次随机实验的分类准确率平均值和方差两个维度来评估模型的性能。设分类類别标签y∈{0,1},其中0表示正常用户,1表示窃电用户。用TP表示类别为1识别为1的数目,FP表示类别为0的用户识别为1的数目,TN表示类别为0识别为0的数目,FN表示类别为1识别为0的数目。预测准确率表示为:
  (3)
  本文采用50次随机实验,每次实验按照8:2的比例从原始数据中随机抽取训练集和测试集。
  每组实验中,RF算法与以下分类算法进行对比:(1)朴素贝叶斯;(2)逻辑回归(LR);采用u正则化;(3)KNN:参数K=5;(4)CART:使用Gini指标进行最优分类特征选取;(5)SVM.采用高斯核函数,惩罚项C=1;(6)GBDT:学习率为0.01,决策树深度为3。随机森林的模型参数设置为;决策树数目200,随机特征数m=7。50组实验的测试结果如下所示:从表中的结果可以看出,不同算法的预测效果差别较大。NB的预测效果很差,precision只有不到65%。而RF的precision达到了91.3%,这个结果与单决策树相比,准确率相差超过10%。SVM的准确率也非常高,到达了86.6%,是单模型中表现最好的算法,但是RF的准确率仍然要比SVM高,而且方差更小性能更加稳定。另一个组合分类器GBDT的平均分类准确率要比较高,达到了87.5%,但无论在准确率和稳定性上RF都要更胜一筹。总体而言,与其他几个分类算法相比,RF在用户窃电行为识别问题上具有更加优秀的识别效果。
  3结论
  本文以用户历史数据为基础,从四个层面提取用户窃用电行为特征,并将随机森林引入用户行为识别中,建立基于组合模型的用户行为识别模型。实验表明,随机森林无论在窃电行为识别的准确率还是稳定性上与其他分类器相比有更好的性能。随机森林分类器与单模型相比,不仅分类的准确性很高,并且能够处理噪声数据,能够克服单模型容易出现的过拟合问题。用户用电数据量大而且噪声较多,使随机森林进行建模,对实际应用具有重要的参考价值。
其他文献
目的:比较驻极体与化学促渗剂对美洛昔康的促渗作用.方法:以美洛昔康贴剂为对照组,以加化学促渗剂的美洛昔康贴剂、驻极体美洛昔康贴剂和加入化学促渗剂的驻极体美洛昔康贴剂为
采用任意拉格朗日-欧拉法,对柴油机三缸排气管进行二维非定常湍流数值模拟。湍流模型采用亚网格尺度模型,入口边界的流动随排气相位变化。
重庆地处“一带一路”建设的重要节点位置,具备较为丰富的教育资源,与东盟之间有着良好的合作基础,重庆与东盟在高等教育领域已建立了较为广泛的合作,但仍存在短板和不足。重
目的:应用星点设计-效应面法优化氢氯噻嗪盐酸可乐定复方缓释制剂的处方。方法:以HPMC K100M和Carbopol 934的用量为考察因素,分别以氢氯噻嗪和盐酸可乐定在1,4,8,12h的累积
原发性支气管肺癌(以下简称肺癌)是最常见的恶性肿瘤之一,其发病率和病死率在全球范围内高居不下,越来越引起世界各国及广大学者的关注。肺癌病因繁多,病机复杂,现代医家多从
"以人为本"之内涵分析市场经济,是以市场作为资源优化配置和主体利益实现的基础性手段的社会经济形态,它主要以市场主体的利益要求作为其运行和发展的内在驱动力,主体的能动
期刊
近期来,医疗手术协议公证在社会上引起很大关注,且微辞颇多。其中有种观点认为,这是医方为故意推脱责任而采取的一种手段。业内人士对此认识也不统一,其中有的认为:医疗手术协议公
为响应国家构建现代职教体系的战略要求以及对接区域经济社会发展的迫切需要,近年来,上海市积极探索贯通培养人才办学模式,先后开展了中等职业教育与高等职业教育、中等职业
摘要:目前社会步入到信息和科技飞速发展的阶段,人们对不同类型的资源需求量明显提升,为社会的迅猛发展奠定了坚实基础。农业是传统产业的重要组成,摸索出符合自身需要的重要发展路径,从种子的高产栽培技术出发摸索出实体产业的发展路径,也得到了社会各界的广泛关注,当地政府和相关企业,需要根据种子高产栽培技术进行针对性的研究,加强推广和管理,更好的促进社会的健康发展。  关键词:农业;种子;高产栽培技术  1