数据挖掘离群点检测算法及其在电力设备故障检测中的应用

来源 :北京邮电大学 | 被引量 : 3次 | 上传用户:luomlkm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我们生活在数据爆炸的时代,随着社会经济和互联网的快速发展,人们在社会生活的过程中产生海量数据。数据挖掘的诞生就是为了从这些海量数据中发掘出有价值的信息,而近年来兴起的云计算又为数据挖掘注入了新的发展领域。电力行业作为支持国民经济的基础性行业,其对于国民经济的重要性不言而喻,对电力数据进行数据挖掘的需求迫在眉睫。然而目前对电力行业的数据挖掘和云计算应用研究还处于起步阶段。基于上述的背景,本文对数据挖掘及其在电力行业的应用进行研究。针对电力设备故障检测问题,当设备发生故障时,其运行数据与正常数据有明显差异。利用这一特性,提出对电力设备数据进行离群点挖掘。本文首先介绍了离群点的定义和分类,研究相关的离群点算法,并比较算法的优缺点。然后对本文使用的分布式计算平台Hadoop和Spark的架构和核心概念进行研究和介绍。接着,本文对基于聚类的离群点检测算法进行深入的分析和研究,并对算法的聚类阶段和离群点检测阶段分别进行了研究和优化。对于聚类算法,采用将Canopy预聚类算法和K-Means聚类算法结合的策略,避免了 K-Means算法的输入参数需要人工指定和初始聚类中心随机选取的弊端,提高了算法的稳定性和效率;对于离群点检测算法,对FindCBLOF算法进行优化,将聚类中心的K近邻引入到离群度计算中,减少了算法的偶然性误差,提高了算法的稳定性。然后,本文对优化后的离群点检测算法进行了分布式实现的研究,利用Hadoop HDFS和Spark RDD编程接口对算法进行分布式实现,并给出算法分布式实现的设计思路和伪代码描述。最后对离群点算法进行分布式环境下实验,对实际的电力设备数据进行离群点挖掘实验,并对不同规模的数据集进行多次实验和比较。结果表明,本文研究的离群点检测算法可以有效地检测出电力设备故障,并且通过分布式实现,借助分布式计算框架有效地降低了程序处理时间,使之能够有效地处理大数据集。本文的研究为电力设备故障提供了一种快速、有效、高扩展性的检测方案,应用前景广阔,具有很好的实用价值。
其他文献
为了提高八旋翼植保无人机的可控制性,对无人机喷洒过程中药箱进行了分析和建模,推导出长方体药箱质量和转动惯量随时间变化的公式,进一步得到了植保无人机精确的时变性动力
源自英国心理学家托尼·巴赞的思维导图在提高我国小学语文教学品味方面,具有儿童易于接受和便于操作的优势。教师结合思维导图的线性模式、环状模式、放射模式、聚敛模式的
目的:探讨小儿先天性心脏病(先心病)患儿介入治疗及重症先心病患儿心导管造影检查时麻醉管理的体会。方法:121例ASAⅠ~Ⅳ级的先心病患儿,静注阿托品、咪达唑仑、氯胺酮,静脉泵
着装是将身体社会化并赋予其意义与身份的一种手段,个体的着装隶属于社会身体管理学的范畴。服装是一种社会文化符号,其的变化与社会政治文化的变迁联系在一起。朝代的更迭、
1948年3月,在香港的中共文化战线的领导人乔冠华等创办了《大众文艺丛刊》,发起批判胡风所谓“主观战斗精神”的思想,在中国进步文坛引起一场重大而激烈的文艺论争,又间接地
华北地区缺水及其日趋严重的生态环境变化是中国首要解决的问题之一。目前,由于山区和平原径流明显减少和过量开发利用水资源,业已造成了地下水漏斗、平原区河道干涸、湖泊湿
马蹄沟金矿床为一典型的微细浸染型金矿床,通过显微镜观察、化学分析、能谱分析等综合分析技术对该矿床中金的赋存状态进行了详细研究。结果表明:该矿床中金主要为自然金,部
总结134例冠脉内支架植入术后应用低分子肝素的观察与护理经验。结果显示,从注射方法、观察局部及全身有无出血现象、对患者进行健康教育及饮食等方面进行有针对性地观察指导