论文部分内容阅读
流程工业系统运行过程中的采样数据经过长时间的积累形成规模庞大的历史数据库。在这些数据中包含了大量有价值的信息和知识等待挖掘。由于流程工业的生产过程强调整体性和实时性,因此需要从整体和系统的角度,以完整的工业生产流程为研究对象进行知识发现的研究。本课题组在电力系统知识发现平台的研究中提出了用于流程对象大数据集知识发现的计算模型——T-C-A-C/T算法流。该算法流包括数据预处理、时序发现、聚类、关联规则生成、关联链和关联树生成,最后通过一系列的计算得到流程对象各个环节之间的链式规则以及状态关联链。目前,T-C-A-C/T算法流中关于数据取样、时序发现、聚类、关联分析方面还存在若干问题有待进一步研究。本文主要针对算法流中存在的问题做进一步的研究。在数据取样方面,设计了基于方差的数据取样算法,计算不同数据段内所有数据的方差和,取方差和最大的数据段作为后续计算的样本数据段。并通过实验展示了数据取样效果。在时序发现方面,根据计算机控制系统相关理论,对流程对象各环节之间的时序关系进行了理论分析,为时序发现算法提供了理论支持。同时完善了基于统计极值的时序计算算法,并对算法的适用条件进行了分析。算法通过统计两环节各个极值点之间的时间距得到两个环节之间的延迟时间,以其中一个环节为基环节计算其它各个环节与基环节之间的延迟时间,得到流程对象各环节之间的时序关系。经过实验表明,可比较准确的得到流程对象各环节之间的时序关系。在聚类方面,为了优化状态的划分,设计了基于时间序列子序列分割的聚类算法,将原有的各环节采样时间序列通过滑动窗口分割为多个子序列,对各个子序列进行标准化处理后使用K-means算法对子序列进行聚类,并使用基于轮廓系数的评价标准选择聚类的最佳k值。并通过实验,展示了聚类效果。在关联分析方面,本文对流程对象各环节间的相关关系进行了理论分析,为含有时序特性的流程工业内部各生产环节之间的关联关系挖掘提供了一定的理论支持。并在子序列聚类的基础上对流程对象各个环节进行关联分析。基于Apriori算法提取不同环节聚类之间的二项关联规则,再根据规则的支持度和兴趣度确定环节间的关联度。并基于环节间的关联度,生成流程对象环节间的关联链,该关联链就是流程工业内部环节间的强关联关系。以每一条关联链为基础,结合关联链上的各环节经过聚类得到的状态类别,通过统计得到该关联链对应的状态关联链,状态关联链表示关联链上的所有环节的不同类状态间的作用关系。使用某电力系统部分采样数据进行实验,可以较好的挖掘出流程对象内部环节间的关联关系以及状态影响关系。最终得到的状态关联链可以对流程工业进行相关的辅助指导,对流程工业的生产、控制和管理都具有较大的意义。