基于国家电网审计业务系统的大数据应用研究和开发

来源 :华北电力大学(北京) | 被引量 : 0次 | 上传用户:hathawayccc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电力行业的数据随着电力信息化程度越来越高开始急剧增长,快速向着多源头、多元化、PB级规模发展。研究大数据技术在电力行业的应用,构建电力行业自己的大数据分析平台势在必行。本文以国家电网审计系统的业务场景为研究切入点,进行大数据技术验证,为国家电网审计系统优化提供大数据解决方案。我们建立了15个节点的Hadoop集群环境,通过sqoop将国家电网审计系统的数据迁移到Hive数据仓库中,对数据进行分布式存储管理。Map Reduce作为海量数据查询分析的计算模式,分别利用Hive QL和Spark SQL作为数据仓库的控制工具执行大规模数据查询测试。测试结果表明,Hadoop分布式架构具有较好的扩展性,能满足国家电网审计系统数据量快速增长的需要,尤其数据越大优势越明显;另外spark数据查询效率明显高于Hive。聚类分析作为数据分析和数据挖掘中重要的一类算法,已经在许多领域广泛应用,根据对国网审计业务的分析,要将验证性分析变成挖掘性分析,将审计方式转变为风险预警的方式,实现审计思维、审计内容、审计目标以及技术应用全方位优化分析,聚类分析算法也将会有巨大的应用空间。同时随着信息化的发展,数据产生速度越来越快,聚类算法所面临的数据规模越来越大,k-means作为聚类中常用而有效的聚类算法之一,其串行计算方法的时间复杂度比较高,处理能力存在局限性,Hadoop作为目前广泛使用的并行计算平台,如何实现k-means基于Hadoop平台并行化计算是一个很有价值的研究方向。本文分析了Kmeans算法的基本原理,结合Map Reduce分布式计算模式,给出了K-means算法基于MapReduce分布式计算模式的Java具体实现,通过对改进后算法进行的正确性验证、集群加速验证和集群扩展率验证,证明了改进后的算法可以有效的利用Hadoop平台强大的并行计算能力,具有良好的高效性和可扩展性,可以在将来为国网审计业务智能分析提供技术支撑。
其他文献
本文阐述了土壤重金属监测技术和方法的最新研究进展。以电感耦合等离子体发射光谱法(ICP-AES)和电感耦合等离子体质谱法(ICP-MS)为代表的联用仪器分析法精度高、准确性强,是
从清军入关到乾隆中叶的一百余年里,王朝的刑名制度走过了这样一条道路:顺治年间全盘接受明制。康熙初年强烈逆动进而形成以刑部为轴心,各层面高度集权、上下相制的新朝新体
由于当代互联网时代不断的进展,在很大程度上也为我国高校的实践教学管理形式产生了一定的影响。而该如何对网络技术有效及充分地利用,本文通过对当代网络技术的发展与高校实
田径是中学体育教学的重要内容,田径素有运动之母的美誉,可以说是学生强身健体最为简便和有效的手段。新课改对中学体育田径教学提出了新的要求,要求在教学当中必须改革教学
随着互联网,物联网的快速发展,车联网这一新型概念应运而生。车联网技术通过车与人,车与车,车与行驶环境相互配合运作,实现节能低耗、安全驾驶、信息共享的宏伟目标。文章主
设计了一款金属探测仪器。采用新型数字电感传感器LDC1000和自制线圈作探头,基于电涡流原理,当有金属物靠近线圈时,由于互感,将会使得自制线圈与匹配电容构成的LC振荡电路的
电力电缆线路运行温度在线检测技术主要是通过电力电缆线路运行温度在线检测系统对电缆线路的安装、线路便面温度、电流强度、线路环境等条件进行实时检测,通过计算机程序计算
魏良辅的声腔改革是对南曲音乐的综合改革,昆山腔不是昆曲的单一母体。魏良辅的声腔改革表现在三个方面,一是舞台语音排斥了正宗的苏州方言,而选定了"苏州—中州音",从而为昆
20实际70年代末80年代初,欧美国家开始采用高温硫化硅橡硅作为电气绝缘材料制造复合绝缘绝伞群及护套。电气设备绝缘防护套采用硅橡胶材料高温模压成型,具有电气性能优良,耐老化
《反补贴条例》是我国在刚入世时为符合WTO的要求而匆忙制定的,条例与WTO法的表面一致并不能掩盖实践中逐渐暴露的具体问题。随着我国参与WTO体制的实践的推进和对WTO法理解