论文部分内容阅读
我们生活在数据爆炸的时代,随着社会经济和互联网的快速发展,人们在社会生活的过程中产生海量数据。数据挖掘的诞生就是为了从这些海量数据中发掘出有价值的信息,而近年来兴起的云计算又为数据挖掘注入了新的发展领域。电力行业作为支持国民经济的基础性行业,其对于国民经济的重要性不言而喻,对电力数据进行数据挖掘的需求迫在眉睫。然而目前对电力行业的数据挖掘和云计算应用研究还处于起步阶段。基于上述的背景,本文对数据挖掘及其在电力行业的应用进行研究。针对电力设备故障检测问题,当设备发生故障时,其运行数据与正常数据有明显差异。利用这一特性,提出对电力设备数据进行离群点挖掘。本文首先介绍了离群点的定义和分类,研究相关的离群点算法,并比较算法的优缺点。然后对本文使用的分布式计算平台Hadoop和Spark的架构和核心概念进行研究和介绍。接着,本文对基于聚类的离群点检测算法进行深入的分析和研究,并对算法的聚类阶段和离群点检测阶段分别进行了研究和优化。对于聚类算法,采用将Canopy预聚类算法和K-Means聚类算法结合的策略,避免了 K-Means算法的输入参数需要人工指定和初始聚类中心随机选取的弊端,提高了算法的稳定性和效率;对于离群点检测算法,对FindCBLOF算法进行优化,将聚类中心的K近邻引入到离群度计算中,减少了算法的偶然性误差,提高了算法的稳定性。然后,本文对优化后的离群点检测算法进行了分布式实现的研究,利用Hadoop HDFS和Spark RDD编程接口对算法进行分布式实现,并给出算法分布式实现的设计思路和伪代码描述。最后对离群点算法进行分布式环境下实验,对实际的电力设备数据进行离群点挖掘实验,并对不同规模的数据集进行多次实验和比较。结果表明,本文研究的离群点检测算法可以有效地检测出电力设备故障,并且通过分布式实现,借助分布式计算框架有效地降低了程序处理时间,使之能够有效地处理大数据集。本文的研究为电力设备故障提供了一种快速、有效、高扩展性的检测方案,应用前景广阔,具有很好的实用价值。