论文部分内容阅读
伴随智能电网技术的快速发展,智能电网在发电、配电、用电等多个重要环节已经产生了海量数据并持续快速增长,这些数据囊括了大量的信息流、电力流以及业务流等信息。海量的电网数据中蕴含了大量的用户用电行为及配电网运行状况等潜在信息。然而简单的数理统计,难以对海量电网数据进行处理,并充分发现电网数据中蕴含的知识。因此,智能电网与数据挖掘技术的融合已经成为必然的发展趋势。合理的运用电网数据挖掘进行科学研究及应用推广,无论是对电力部门进行有效的网架结构优化、电力资源配置,还是提高电力用户的体验,都有十分重要的意义。为了解决在电网数据挖掘研究过程中缺乏数据挖掘平台系统进行支持的问题,本文设计并实现了面向电网大数据的数据挖掘平台子系统。该系统是基于HDFS和Spark分布式集群的B/S架构Web平台。通过该系统可以快速地实现对海量电网数据进行聚类、分类、关联分析等数据挖掘计算。同时,也可以通过集成的电网数据挖掘场景计算方便快速地进行电网知识发现。本文首先根据电网数据挖掘研究现状和大数据平台发展现状,提出了电网数据挖掘平台在功能上和非功能上的需求;根据需求,对系统的总体架构、数据存储、相关接口、工作流程和部署视图进行设计;本文还设计并实现了远程调用Spark的可编程解决方案,使开发者可以在Web框架中对分布式数据集采用面向对象的方法编程;然后,本文对系统的核心模块电网场景模块进行详细设计,说明了系统对电网场景的集成和运行方式。同时基于某市2015年配电网遥控记录,设计了配电网遥控结果预测场景,通过对随机森林算法进行改进有效提高模型质量,经实验证明模型的预测结果可以有效地为调度员提供参考;最后,通过单元测试、集成测试以及性能测试验证本系统可为电网大数据研究提供有效的数据挖掘平台。