论文部分内容阅读
随着互联网技术飞速发展,在电子商务、科学研究、社交平台等诸多领域,数据规模、数据种类正在极速增长,大数据的时代已然来临。在电网领域,随着物联网的发展,传感器的大量应用,监控采集到的数据也越来越庞大。由于数据规模大,数据类型多,数据处理时效性高,传统的数据处理技术无法满足技术要求。针对电网大数据的统计分析,急需大数据技术的支持。Spark是一个新兴、高效的大数据计算框架,它提供有丰富的组件及API,支持流式数据的处理、图计算、机器学习及SQL查询。在电网大数据的统计分析中,涉及大表之间的关联操作。Spark中采用join操作对两表进行关联,关联过程中会有大量不符合条件的数据与Shuffle操作,导致join的效率不高。本文针对Spark中join操作的低效问题和电网大数据统计分析的实际应用问题,首先,提出一种基于BloomFilter过滤再分区的算法,通过这种方式预先过滤掉大部分不符合条件的连接数据,然后针对数据倾斜的问题进行再分区,充分发挥各节点的计算资源,最大程序上优化join过程,从而提高程序的整体效率。最后,本文在国家电网重庆供电公司调控中心的统计业务需求背景下,结合Spark及Spark SQL提出了一个电网数据处理模型,通过与J2EE Web技术整合,实现了电网数据的采集、计算分析和展示。