基于Spark的电网大数据统计中等值连接问题的优化及其应用

来源 :重庆大学 | 被引量 : 0次 | 上传用户:leki55
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术飞速发展,在电子商务、科学研究、社交平台等诸多领域,数据规模、数据种类正在极速增长,大数据的时代已然来临。在电网领域,随着物联网的发展,传感器的大量应用,监控采集到的数据也越来越庞大。由于数据规模大,数据类型多,数据处理时效性高,传统的数据处理技术无法满足技术要求。针对电网大数据的统计分析,急需大数据技术的支持。Spark是一个新兴、高效的大数据计算框架,它提供有丰富的组件及API,支持流式数据的处理、图计算、机器学习及SQL查询。在电网大数据的统计分析中,涉及大表之间的关联操作。Spark中采用join操作对两表进行关联,关联过程中会有大量不符合条件的数据与Shuffle操作,导致join的效率不高。本文针对Spark中join操作的低效问题和电网大数据统计分析的实际应用问题,首先,提出一种基于BloomFilter过滤再分区的算法,通过这种方式预先过滤掉大部分不符合条件的连接数据,然后针对数据倾斜的问题进行再分区,充分发挥各节点的计算资源,最大程序上优化join过程,从而提高程序的整体效率。最后,本文在国家电网重庆供电公司调控中心的统计业务需求背景下,结合Spark及Spark SQL提出了一个电网数据处理模型,通过与J2EE Web技术整合,实现了电网数据的采集、计算分析和展示。
其他文献
<正> 蜂群的春季管理,一般在立春节气过后便可开始。 一.检查蜂群。在检查中调整蜂路,提出余脾,达到蜂脾相称;查出蜂王是否健在,巢内是否潮湿;还应查出群势的强弱和饲料的多
<正> 近几年来,黎平县非公有制经济迅猛发展,有力地促进了全县经济社会的发展。当前,如何加强对这一新领域的党建工作,是各级党组织面临的又一项新任务、新课题。前不久,我们
目的:分析60例甲状腺手术患者采用喉返神经保护措施的临床手术效果,并探讨该措施的必要性和方式。方法:回顾性分析2007年4月~2009年4月在我院进行甲状腺手术治疗的60例患者的临
美国早已开始STEM教育的探索,取得一定的成效后各国开始学习、模仿,中国也是其中之一。2015年教育部《关于“十三五”期间全面推进教育信息化工作的指导意见(征求意见稿)》的
<正> 一、粉碎 将阴干或晒干的秸秆粉碎成长10毫米、宽1~3毫米的草粉。各种原料需单独粉碎,即禾本科植物与豆科植物分别粉碎。 二、发酵 将粉碎好的禾本科草粉和豆科草粉按3:1
<正> 随着社会主义市场经济的建立和发展,给我国各行各业带来了新的生机。教育这个古老的话题,在新形势下又添了许多新意,特别是农村教育综合改革更是沸沸扬扬,乡镇普通初中
目的:探讨四君子汤保留灌肠治疗新生儿窒息后喂养不耐受的临床疗效及其对血清一氧化氮的影响。方法:将我院收治的窒息后喂养不耐受的52例患儿随机分为对照组和治疗组,每组各26