论文部分内容阅读
随着电网智能化与信息化的建设,电网企业积累了大量的数据,逐渐构成了学术界和工业界共同关注的电力大数据。本文将电力系统全生产过程、电力设备全寿命过程中产生的数据,统称为全寿命数据,其类型涵盖了结构化和非结构化数据。目前在电力领域中,主要侧重于结构化数据挖掘的研究,也有针对图像识别的研究,但是,电力文本挖掘研究才刚刚起步。本文以获取可靠性的相关指标(统计指标、健康指数、广义故障率和可靠性)为目的,以电力设备资产管理为着眼点,重点对电力文本挖掘及多源数据的融合技术进行了深入研究,取得了如下成果。1.针对可靠性和资产管理的特点,给出了电网自然语言处理(Natural language processing for power grids,NLP4PG)的基础定义。编撰了专业词典、变压器本体词典和领域语料库,并将部分内容开源共享。融合了本体论与电力领域知识,建立了适用于NLP4PG的总框架。指出了NLP4PG的工作原理和潜在应用,并分析了若干语言特性和语言模型,填补了电力中文文本挖掘研究的空白。2.基于语义框架思想,将离线统计学习与在线语义规则的方法相结合,提出了适用于故障与缺陷分类统计的文本挖掘模型。解决了缺陷文本句子成分难以划分、数字量无法精确提取等问题,并实现了本体字典的半自动化构建技术。3.针对设备健康指数(Health Index)多源、多类型的特点,改进了kNN算法,提出了具备自主区间寻优能力的电力缺陷短文本分类模型。该模型实现了从故障缺陷文本到HI的自学习映射,能够在最大程度上挖掘同类设备的相似信息、融合同台设备的历史信息,使得HI更加合理、精准。在一定程度上,改变了运维人员主观评价故障/缺陷等级的方式,并符合电网企业精细化管理的发展要求。4.为了能够充分利用从全寿命数据中挖掘到的亚健康状态信息,同时处理多类型复发事件,提出了基于鞅过程和非参数理论的设备故障率预测模型。该理念完全区别于以往单一变量的故障率模型(基于时间或状态量的定参数分布函数),通过算例结果、鞅残差检验、灵敏度分析表明,该模型能够定量地、精确地描绘短期故障率,为剩余寿命预测、状态检修优化提供基础可靠性指标。5.针对智能变电站自动化系统(Smart Substation Automation System,SSAS)这类新型的、缺乏运维数据的场景,提出了基于网络层次分析法的广义可靠性评估模型。参考IEC 61850标准、设计文档和相关文献,构建了SSAS本体平台,包括物理本体、逻辑本体和信息流本体。对应地,将系统可靠性作为总指标,涵盖了物理可靠性、逻辑可靠性、信息流可靠性和系统经济性。四大指标下面包含了若干定量与定性的指标。通过算例结果与灵敏度分析表明,在缺乏运维数据的情况下,本模型能够用于新型系统的可靠性评估,为设计方案的遴选提供一种新思路。