论文部分内容阅读
电力行业的数据随着电力信息化程度越来越高开始急剧增长,快速向着多源头、多元化、PB级规模发展。研究大数据技术在电力行业的应用,构建电力行业自己的大数据分析平台势在必行。本文以国家电网审计系统的业务场景为研究切入点,进行大数据技术验证,为国家电网审计系统优化提供大数据解决方案。我们建立了15个节点的Hadoop集群环境,通过sqoop将国家电网审计系统的数据迁移到Hive数据仓库中,对数据进行分布式存储管理。Map Reduce作为海量数据查询分析的计算模式,分别利用Hive QL和Spark SQL作为数据仓库的控制工具执行大规模数据查询测试。测试结果表明,Hadoop分布式架构具有较好的扩展性,能满足国家电网审计系统数据量快速增长的需要,尤其数据越大优势越明显;另外spark数据查询效率明显高于Hive。聚类分析作为数据分析和数据挖掘中重要的一类算法,已经在许多领域广泛应用,根据对国网审计业务的分析,要将验证性分析变成挖掘性分析,将审计方式转变为风险预警的方式,实现审计思维、审计内容、审计目标以及技术应用全方位优化分析,聚类分析算法也将会有巨大的应用空间。同时随着信息化的发展,数据产生速度越来越快,聚类算法所面临的数据规模越来越大,k-means作为聚类中常用而有效的聚类算法之一,其串行计算方法的时间复杂度比较高,处理能力存在局限性,Hadoop作为目前广泛使用的并行计算平台,如何实现k-means基于Hadoop平台并行化计算是一个很有价值的研究方向。本文分析了Kmeans算法的基本原理,结合Map Reduce分布式计算模式,给出了K-means算法基于MapReduce分布式计算模式的Java具体实现,通过对改进后算法进行的正确性验证、集群加速验证和集群扩展率验证,证明了改进后的算法可以有效的利用Hadoop平台强大的并行计算能力,具有良好的高效性和可扩展性,可以在将来为国网审计业务智能分析提供技术支撑。