基于机器学习的电费数据异常智能检测技术研究

来源 :广东技术师范大学 | 被引量 : 1次 | 上传用户:tyhz3030
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电费数据异常不仅关系到电网公司和用电用户的根本利益,还影响了电费的及时回收,电网公司如何将电费数据异常风险降到最小,这是需要关注的问题。准确的电费数据异常检测可以帮助电网公司提高对电费异常数据核查的命中率,减少下发到基层电费复核部门的工单数量。然而,在当前电费数据异常检测技术中,很难获得训练数据标签,且存在样本不平衡、低占比样本预测查全率低、操作流程复杂难以推广等问题,为了有效解决以上问题,深入挖掘电费数据的结构化特点,本文通过机器学习的方法开展电费数据异常智能检测工作,主要研究工作包括:首先,针对电费数据集研究了电费数据预处理的方法,根据电费数据集的特点,对电费数据进行了缺失值填充和异常值处理等预处理操作,进一步对电费数据中的非数值字符进行特征编码,并使用随机森林算法对电费数据集进行特征重要度排序,对重要度排序结果靠后的特征进行删除处理。为了更好地理解电费数据集属性之间的关联性,建立了特征之间的线性相关系数矩阵,并绘制了相关性热力图。其次,为解决电费数据样本的不平衡问题,提出了基于KUS-KSOS的电费数据样本不平衡处理算法,以尽可能提高电费异常数据的检测查全率和查准率。通过查看电费数据集中的数据分布,使用KUS-KSOS混合采样算法对电费数据集进行样本平衡处理,让数据分布更加均衡。实验结果表明KUS-KSOS算法最高可将电费数据异常检测的查准率由采样前的78.5%提高到采样后的94.1%,证明了KUS-KSOS算法在一定程度上可减少多数类样本中重要信息损失,提高电费数据异常检测的查准率。最后,基于上述已经处理好的电费数据集,针对电费数据特征之间的相关性,利用Pearson相关系数和距离相关系数特征优化算法,提出了基于DC-XGBoost的电费数据异常智能检测模型。实验结果表明,与XGBoost等机器学习算法进行对比,改进的DC-XGBoost算法查准率提高了3.3%,查全率提高了6.8%,AUC值提高了3.1%,表现出了更优的性能。为了进一步提高电费数据异常检测的查全率和查准率,在原始深度森林中的每层级联结构中引入DC-XGBoost算法,在保证每一层创建的概率向量尽可能准确的同时,通过增加学习器的多样性改进模型检测的性能,构建了基于改进深度森林的电费数据异常智能检测模型。实验结果表明,所提出算法与原始深度森林相比提高了7.1%的查全率和3.1%的AUC值,证明了算法的有效性、可行性,对电费数据异常检测实际应用具有重要意义。
其他文献
学业自我效能感与学习投入是影响学生学习成绩的重要因素。科技的快速发展推动了教育的改革,很大程度上增强了教育资源的公平性。在外界条件趋于相同的背景下,学生的自我效能感就成为影响学生学习投入的关键因素。自我效能感主要是指学生个体对自己能否凭借个人力量独立完成某项任务而进行的自我判断或推定。学生在学习上投入的精力、时间、情感都会对最后的学习结果产生关键的影响。衡量学生学习状态的关键因素还是取决于他们的自
学位
G蛋白由α、β和γ3个亚基组成,参与感受和响应外界环境,直接或间接地调控种子大小,因此深入研究G蛋白互作调控、表达模式,可为小麦分子育种奠定基础。本研究采用比较基因组学,克隆了水稻DEP1、dep1基因,构建超表达载体转入扬麦158;构建Ta DEP1的基因编辑载体转化Fielder;构建扬麦158整个生长发育阶段的酵母文库,用于筛选Ta DEP1的互作蛋白,并设计特异引物进行基因克隆及功能验证。
学位
指令语是教师话语的重要组成部分,对于教师而言,指令语的使用直接关系到教师的教学目标是否能顺利实现,教学内容是否能顺利完成;对于学生而言,它关系到学生对教学内容是否能理解与掌握,能否顺利完成手头任务。本研究以惠州一中东江学校的三位新手教师和三位专家教师为研究对象,主要调查和探讨以下两个研究问题:第一,初中英语教师对于指令语的使用现状是怎么的?具体包括:初中英语课堂中,教师指令语的有效性、使用数量、语
学位
油菜是世界上重要的油料作物,田间杂草会严重影响油菜产量。油菜生长的田间环境存在多种杂草,包括单子叶和双子叶杂草。因此,油菜地在喷施除草剂时对化学除草剂的种类及剂量有严格的要求。普通的选择性除草剂只能针对单一或少数种类的草害。草甘膦作为非选择型灭生性除草剂代表,因其高效、低毒、低残留等优点受大众欢迎。目前我国尚未拥有自主知识产权的耐草甘膦除草剂油菜品种,因此研发耐除草剂转基因油菜意义重大。IsEPS
学位
异质图适合描述具有不同类型实体和关系的现实世界数据,有效扩展了网络的概念。异质图神经网络作为一种新型技术,用来捕获异质图中的异质信息,能够有效地将消息传递机制和异质图中复杂的语义结合起来,在异质图挖掘领域取得巨大成功。然而,异质图本身存在一些通用问题,例如:无初始特征问题和节点度数的长尾问题等。知识图谱是异质图的一种特殊情况,基于两者提出的图建模和图表示方法却鲜有交叉,这是值得关注的方向。专利知识
学位
随着数字仪器和电子设备的普及与应用,生产生活过程越发便利和智能,与此同时,也带来了一定危害,电磁干扰和辐射问题逐渐发展成为一种新型污染,电磁管理迫在眉睫。此外,高科技军事技术如隐身技术,对吸波器有效吸收电磁波的性能不断提出新的要求。开发新型电磁吸波器来实现电磁波的高效吸收与耗散是解决上述问题的一个重要方案。尽管传统吸波材料在微波吸收方面取得了令人印象深刻的性能,却存在吸收带宽窄、密度高、化学稳定性
学位
茄科雷尔氏菌(Ralstonia solanacearum)又称青枯菌,该病原菌可以为害许多茄科经济作物,由于防治困难造成农业生产上严重的经济损失。青枯菌利用许多不同的毒力因子在寄主植物中致病,其中III型分泌系统分泌的效应蛋白是青枯菌致病性的关键因子。本实验室前期筛选出两个功能未知的效应蛋白RipAX1和RipAX2,本文通过分析效应蛋白结构、观察亚细胞定位、瞬时表达效应蛋白检测对免疫反应的影响
学位
油菜是我国重要的油料作物,食用油品质直接影响人类健康,因此油菜品质改良育种尤为重要。油菜籽中油脂主要成分为甘油三酯,由脂肪酸链和甘油骨架组成,其中脂肪酸是可变的部分,脂肪酸的成分和相对应的比例决定了菜籽油的品质,培育高油酸、低亚麻酸、低芥酸油菜品种是油菜育种的重要方向。通过调控特定基因的表达,可精准改良菜籽油中脂肪酸的组成以满足食品加工对油脂的需求,有利于提高油菜的经济效益和综合利用价值。脂肪酸去
学位
严格的环境安全性评价是转基因抗虫水稻商业化之前的必要环节,其中转基因抗虫水稻对非靶标生物的安全性是环境安全性评价的重要内容。在稻田生态系统中,转Bt作物所表达的Cry蛋白可通过食物链传递给寄生性天敌。因此,Cry蛋白是否对寄生性天敌产生负面影响,是转Bt基因抗虫水稻安全性评价必不可少的组成部分。T2A-1是转cry2Aa基因的抗虫水稻,对二化螟(Chilo suppressalis)和稻纵卷叶螟(
学位
随着5G、大数据技术、产业互联网等新一代信息技术的蓬勃发展,预计到2035年全球商标数据数量将达到6500万件,商标数量的剧增所附带的结构复杂的、种类繁多的、ZB量级的图像数据,无疑对商标审核查新的精度和效率要求更加严峻。如何在海量的商标数据库中快速精确地搜索到近似易混淆的商标图片愈发重要,因此商标检索成为了目前保护用户权益和保证商标专有权中必不可少的技术之一。目前最先进的哈希方法之一是利用深度神
学位