论文部分内容阅读
电力设备在运行过程中会出现各种缺陷,这些缺陷若不及时发现并消除,会危及电力系统的运行安全;为了提高缺陷诊断和消除的准确性,有必要深入分析影响电力设备缺陷发生的因素以及缺陷发生的规律。目前电力设备缺陷详细情况往往以文本形式描述,人工分析统计工作量大,并且会由于知识和经验的差异,导致分析不准确,因此迫切需要计算机自动进行文本挖掘,从缺陷描述文本中提取出关键信息,实现电力设备缺陷精细化分析与统计。本文的研究工作主要针对电力设备缺陷文本,研究文本挖掘技术,实现电力设备缺陷的精细化分析。本文的主要研究内容包括:1.分析了电力设备缺陷文本的预处理技术。首先分析了电力设备缺陷文本的特点,指出缺陷文本包括结构化信息和非结构化信息,本文的挖掘对象是非结构部分,即缺陷的详细描述;然后介绍了缺陷文本的预处理技术,包括缺陷文本分词技术和本体词典构建技术,以及去停用词的方法;接着简单介绍了常用的文本表示方法,包括向量化表示模型、树/图结构模型;最后提出了基于知识图谱技术的缺陷文本质量分析方法以及检索查错流程,为后续文本挖掘提供质量有保证的文本。2.提出了基于语义框架的电力设备缺陷文本挖掘方法。经过对大量缺陷文本的分析,可以发现,一条文本往往会描述一个设备不同部件的多种缺陷情况,若不将其分开,则会造成理解混乱,降低缺陷的统计准确度,为此选择建立语义框架和语义槽的方法进行分析。首先定义了电力语义框架与语义槽,然后提出了槽填充和语义框架构建流程,运用语义近距离匹配方式实现语义框架的构建,通过词串合并实现了本体字典自动完善;最后对缺陷文本挖掘结果在可靠性统计中的应用进行了研究。算例表明,所提出的挖掘技术应用于电网缺陷自动分类与统计中,具有可行性和有效性。3.提出了基于文本挖掘技术的电力设备缺陷分析方法。通过语义框架方法,实现缺陷文本非结构化信息的结构化之后,融合缺陷文本的结构化信息,首先建立了基于文本挖掘技术的电力设备缺陷分析模型,把引起缺陷的因素分解为内部因素和外部因素,并给出了缺陷率定义。然后通过算例,分析了单因素的缺陷率,以及多因素间的关联规则和关联度,分析结果不仅能总结电力设备的缺陷发生规律,而且对未来设备的选型、消缺和维护具有指导意义。