论文部分内容阅读
工业经济是我国国民经济的支柱,流程工业是工业制造业的两大主要组成之一,流程工业企业的连续稳态运行是保障国民经济发展的关键因素。但是,流程工业生产环境比较苟刻,容易受到各种突变干扰和不确定性因素的影响,导致一些监测参量发生异常。由于系统各部分间往往存在高关联性,部分参量发生的异常由于传播效应,可能会引起整个系统故障。因此,流程工业设备异常检测研究成为近些年的研究热点。当前的研究方法通常是基于设备监测数据直接展开研究,是节点级别或局部级别的研究,没有考虑设备参量之间的关联性和整个系统的复杂性。从系统级特征是否发生变化的角度判断系统是否发生异常是本研究不同于其它方法的意义所在。如何将某个工业系统建模,这个系统有哪些特征可以量化,是完成本研究首先要解决的问题。复杂网络科学是关于系统工程的一门新科学,可以从系统级层面研究复杂系统。而机器学习方法可以通过对研究对象的历史数据特征进行学习建立预测模型。所以,根据研究目标,通过将复杂网络和机器学习两门科学进行融合,确定论文研究按照“两阶段三步走”的思路展开。“两阶段”即异常检测算法的提出和有效性验证阶段、工业场景下异常检测算法的响应时间优化阶段。“三步走”即工业系统关联网络建构研究、基于网络特征的异常检测研究、异常检测算法运行时间的优化研究。围绕该思路,论文开展的具体研究内容和创新点如下:(1)针对工业设备监测参量之间关系的确认问题,提出了一种新的关联网络推断方法“符号化转移熵谱和格兰杰因果关系”(Symbolic Transfer Entropy Spectrum and Granger Causality,STESGC)。该方法引入符号化偏转移熵谱作为新的量化指标,解决多元监测变量之间关系识别问题,还解决了关系强弱量化问题、阈值选择问题、方向识别问题和时间延迟识别问题。同时,该方法融合了格兰杰因果关系,弥补了单一方法的不全面问题,实现了更加准确的候选关系过滤。使用符号化偏转移熵谱需要解决连续数据的离散化问题和替代数据生成问题。对于连续数据的离散化问题本文提出了符号化时间序列的方法。对于替代数据生成问题,本文提出小幅打乱的方法,相比随机打乱的方法,前者解决了后者可能破坏数据长期趋势性的问题。STESGC方法的框架分为三层。第一层是数据层,是建模算法与用户的交互接口,该层的第一项工作是输入原始多元时间序列和建模参数;第二项工作是生成替代数据。第二层是建模层,是这个框架中最重要而且最复杂的一层。这一层的目标是从监测参量时间序列中识别出它们之间所有可能的关系。核心工作有时间序列符号化、(偏)符号转移熵计算和图形谱构建。该层的输出是用0-1矩阵表示的候选关系矩阵。最后一层的任务是对候选关系进行过滤,构建一个加权有向网络。为了仅仅保留强关系,减少间接关系,采用数据处理不等式进行过滤。将STESGC方法分别应用于仿真的线性系统和非线性系统。在线性系统中,该方法的查准率比格兰杰因果关系、符号化转移熵、偏符号化转移熵方法分别提高了 13%、9%、10%。在非线性系统中,仿真实验结果也表明该方法具有较好的性能。该方法的性能在耦合混沌系统和实际发电系统的实验中也得到了验证。(2)针对关联网络如何用于异常检测的问题,提出了一种基于网络拓扑特征分析和超平面学习的异常检测方法(Network Topological Features and Hyperplane Learning,NTFHL)。该方法精选了9种网络级拓扑特征作为关联网络的量化指标,在不同时刻分别计算这些拓扑特征的数值,从而构成了关联网络的拓扑特征数据集。然后基于此数据集,利用超平面学习的方法进行异常检测。不同于传统数据驱动型异常检测方法,该方法首先解决了基于原始数据进行分析时数据维度过大的问题;其次,利用系统级特征进行异常检测考虑到了节点与与节点之间的相互影响,不再是孤立的节点级检测。不同于基于模型的异常检测方法,该方法的应用不需要先验知识和确定的数学模型。该方法将复杂网络和机器学习两门科学进行融合,兼顾了二者的优点。该方法包含四个主要步骤:监测变量关联网络推断;关联网络拓扑特征分析;对拓扑特征数据集进行超平面学习建立系统异常预测模型;利用预测模型对工业系统状态进行检测。拓扑特征数据集被分为训练集和测试集,分别用于建模学习和性能评估。将NTFHL方法应用于仿真数据集,分别对阶跃型异常和趋势型异常进行检测实验。然后将NTFHL方法的实验结果与决策树和随机森林异常检测方法相比,查全率分别提高了 46%和19%。(3)针对工业环境对算法响应时间要求高,而单机算法时间复杂度较高的问题,设计并实现了两种异常检测并行算法ADPC-Spark和ADPC-Hadoop。在相同的特定实验条件下,对两种并行算法和单机算法,进行大量的仿真实验并进行比较。实验结果为:在监测变量为15个时,ADPC-Spark算法的运行性能比单机算法的性能提高110倍以上,而ADPC-Hadoop算法的性能比单机算法的性能提高5倍以上;在样本数量为10000时,ADPC-Spark算法的运行性能比单机算法的性能提高120倍以上,而ADPC-Hadoop算法的性能比单机算法的性能提高6倍以上。在监测变量为50个时,ADPC-Spark算法的性能比ADPC-Hadoop算法的性能提高4倍以上;在样本数量为100000时,ADPC-Spark算法的性能比ADPC-Hadoop算法的性能提高12倍以上。实验结果表明,相比单机算法,两种并行算法的性能均有大幅提升,可以满足工业场景下监测参量多及数据样本多时对响应时间高的要求。ADPC-Spark算法的性能最佳,适合新建工业系统或已搭建Spark计算平台的工业系统使用。ADPC-Hadoop算法适合已搭建Hadoop计算平台的工业系统使用。而单机算法仅适合数据规模不大的情况。(4)针对所提异常检测算法在流程工业中是否适用的问题,将所提方法应用于TE过程(Tennessee Eastman Process)故障检测进行实证分析。TE过程是化工故障检测研究领域非常著名的数据集,也是典型的流程工业案例。首先讨论了 TE过程的监测变量和故障类型,并对数据进行了探索性分析,掌握了正常数据和故障数据的特征。其次,提出利用均值插补法,解决异常检测实验时异常数据量严重不足的问题。最后,将NTFHL方法应用于TE过程进行故障检测。通过将NTFHL方法的实验结果与贝叶斯、决策树和随机森林等异常检测方法得到的结果相比,查全率从96%左右提高到了 99%,性能得到提升,证明NTFHL方法适用于流程工业。总之,论文研究内容既有理论研究意义,又有实际应用需求。在理论研究阶段,所提各方法均在仿真实验平台上进行了大量的实验并进行了性能分析。实验结果验证了方法的可行性和优越性。在实证分析阶段,通过将所提异常检测方法应用于故障诊断中常用的TE化工过程,并与若干其它方法相比,体现出了较好的性能,为更大范围的工业设备异常检测提供了可参考的有效解决方案。