论文部分内容阅读
随着智能配电网的不断发展以及智能化电力设备的广泛应用,配用电数据开始急剧增长。一方面,这些数据不仅来源于生产管理系统、负荷控制与管理系统、用电信息采集系统、营销业务管理系统等配电网内部系统,也包括了地理信息、社会经济、气象环境等外部相关系统数据,数据总体呈现出体量大、类型多、增长快的大数据特征。另一方面,随着负荷预测、配电网网架优化、错峰调度、节电分析等配用电相关应用向智能化、精益化方向发展,如何利用大数据技术提升配用电相关应用的精度、广度及深度成为电力行业新的挑战和机遇。通过对配用电大数据的多源集成、存储优化、关联查询及并行处理等问题进行研究,不仅能够实现配用电数据快速获取和共享,而且能够提高数据分析和数据挖掘的效率,为基于配用电大数据的相关应用提供更高效的技术支持。面对来源广、类型多、异构化的配用电大数据,本文根据各数据系统的特点,选择与之相适应的数据交互通信方式,实现配用电多源数据的跨平台迁移。针对配用电大数据多源集成过程中的异构化问题,通过生成标准化元数据并构建相应数据字典的方法,实现数据的规范化集成。在数据集成的基础上,针对配用电大数据高效存储和快速查询两方面核心问题,本文根据配用电相关应用对于多源数据关联分析的需求,基于Hadoop研究大数据存储优化方法,提出计及配用电数据关联性的哈希分桶存储算法,以实现相关联数据的集中存储,从而提升后期数据查询及处理的效率。在数据存储优化的基础上,进一步实现基于MapReduce的多源配用电大数据并行关联查询。通过在Hadoop集群上进行测试说明对经过哈希分桶存储优化后的多源数据进行并行关联查询的高效性。大数据环境下的配用电数据格式转换、异常数据辨识、数据清洗等处理环节大多需要复杂的迭代计算,而后期应用对于数据处理的效率有较高的要求。针对具有半结构化及非结构化特点的配电网拓扑数据难以被直接应用的问题,本文利用Spark的并行化内存计算等技术实现大规模配电网拓扑数据的高效解析。考虑到海量负荷数据中存在的数据缺失、波动幅度过大等异常情况将影响后期负荷时空分布预测、网架优化等应用的准确性,提出基于Spark技术的并行化FCM算法,并应用于负荷异常数据辨识及修正。通过在Spark实验环境中测试说明本文方法能够高效准确地辨识及修正负荷异常数据。以负荷时空分布预测应用为例,利用本文所提出的方法对应用所需数据进行多源集成、存储优化、关联查询及并行处理,以说明本文方法的有效性。