论文部分内容阅读
随着智能电网基础设施的不断完善,传感器技术、通信技术和计算机技术等在智能电网中得到了越来越广泛的应用,国家电网的测量、采集、监控等系统中产生了以指数级的速度增长的数据。如何利用可扩展的方式存储和在短时间内对这些数据进行潜在价值的分析挖掘及结果展示等成为了一个非常重要的研究课题。目前,大数据处理技术有离线处理、内存计算等多种模式。以Hadoop框架为代表的大数据离线处理技术,可以实现数据分布式存储和计算,但是在计算速度上与内存计算具有一定的差距。电能计量装置异常信息的多维分析和故障诊断等存在一定的时效性限制,因此如何快速的对计量装置大数据进行多维分析和诊断,成为了研究学者和专家等关注的热点。本文首先介绍了电能计量装置相关数据的来源,说明了智能电网中以智能电表为代表的电能计量装置设备数量极其庞大,用电信息采集系统中收集到的相关信息也越来越多,逐渐呈现出了数据量庞大、数据种类多、增长速度快等大数据特点,由于计量装置数据的特殊性,分析处理这些数据的时效性要求也比较高。针对这些特点和需求说明了并行内存计算相对于以Hadoop为代表的离线分析处理方式的优势。之后对计量装置出现的异常种类进行了装置异常分析方法的建模,并制定了计量装置异常信息多维分析和诊断的整体方案。在计量装置异常分析的建模中,举例介绍了几个典型的异常情况的诊断流程和诊断方法。然后搭建大数据平台,利用Spark SQL和HQL对计量装置数据进行异常特征值计算,并对计算结果进行多维分析。然后详细介绍了对朴素贝叶斯算法的并行化过程,从而利用集群优势对电能计量装置进行故障诊断。最后测试了集群异常特征值计算的性能,验证了异常特征值计算的结果,列举了若干多维分析示例。之后进行了Spark SQL和HQL在处理数据时的效率和资源占用情况对比,同时验证了利用并行化的朴素贝叶斯算法进行计量装置异常诊断的可行性,分析了内存计算相对于单机和离线批处理的效率优势。最后实验验证了集群具有很好的加速比。