基于机器学习的工业过程数据驱动建模及数据扩充方法研究

来源 :北京化工大学 | 被引量 : 1次 | 上传用户：ahehehehehe

【摘要】

：

【作者】

：

张晓晗

【机构】

：

北京化工大学

【出处】

：

北京化工大学

【发表日期】

：

2023年01期

【基金项目】

：

国家自然科学基金项目；

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在现代流程工业中,建立准确可靠的工业过程数据驱动模型在决策者的早期规划中起着至关重要的作用。模型性能和数据质量是工业数据建模的两个关键问题。随着工业过程数据的日益复杂化,如何提升模型的精确度和鲁棒性是智能计算领域的一个重要研究方向。此外,因为系统内某些事件的发生概率较低或者受物理限制导致部分数据的获取成本较高,会导致复杂石化过程建模中存在着样本匮乏的问题。有效样本数量少、样本分布不均匀、样本具有强非线性、噪声、缺失和不确定性等特点,严重制约了数据驱动模型的性能,难以实现过程系统的优化运行。提高数据驱动模型性能和生成有效的虚拟样本扩充训练样本集,具有重要的理论研究意义和工业应用价值。在归纳和总结了国内外大量研究工作的基础上,本文将进一步研究神经网络结构及学习算法,以提出基于机器学习的工业过程数据驱动建模新方法。同时针对监督式学习算法中存在的样本匮乏问题,开展虚拟样本生成方法的相关研究工作,有效扩充训练样本集,以提升工业过程数据驱动模型的性能。本研究课题的主要内容可以概括为如下几个方面:1、基于PLSR的多激活函数极限学习机集成网络模型（PLSRMAFELM）。为了有效处理具有高度非线性的复杂工业过程数据,训练具有多激活函数的极限学习机模型,对输入样本进行模式识别或者函数逼近。并采用集成学习的策略将单个极限学习机模型的输出进行偏最小二乘回归聚合,获得集成网络模型的最终输出结果。所提模型具有较强的非线性处理能力,可有效处理数据的噪声信息。PLSR-MAFELM可以解决在数据复杂性增大的情况下,传统极限学习机存在的泛化精度低和模型鲁棒性差的问题。所提出的新模型具有泛化能力强、训练速度快和高鲁棒性等显著优势。2、基于流形学习的虚拟样本生成新方法（Isomap-VSG和LLE-VSG）。为了有效解决工业过程数据驱动建模中训练样本分布不均匀和样本匮乏的问题,提出基于拓扑流形概念的虚拟样本生成新方法实现数据扩充。作为建模中的一项数据预处理环节,数据扩充会直接影响模型的精度和泛化能力等性能指标。所提出的虚拟样本生成方法采用等度量映射或局部线性嵌入的流形学习方法从高维采样数据中恢复低维流形结构,得到相应的嵌入映射关系,实现数据的维数约简。低维流形可视化结构可以用于发掘高维匮乏样本的真实稀疏区域。然后采用插值法在低维数据空间的稀疏区域内生成有效的虚拟样本,扩充原始样本信息。在获得虚拟样本后,执行虚拟样本筛选步骤,根据数据属性特征构建三角隶属函数,找到样本的非对称可扩展区域,剔除落入可扩展区域范围以外的虚拟样本,以确保虚拟样本的合理性。3、基于分位数回归和变分生成式对抗网络的虚拟样本生成新方法（QRVAE-GAN）。为了使生成模型具有学习复杂概率分布和生成带标签虚拟样本的能力,本文提出了一个深度生成框架QRVAE-GAN。QRVAEGAN具备标签样本生成能力,可用于处理回归预测问题中的样本扩充。所提出的深度学习模型QRVAE-GAN中包含了与生成对抗网络相结合的变分自编码器。其中,编码器负责将真实样本映射到一个潜在向量,编码器的映射作用降低了生成器的训练难度;利用生成器重构原始样本,将原始样本的特性与给定的潜在向量相匹配;判别器则负责判断输入的样本是否属于真实样本分布。同时,所提出的虚拟样本生成模型QRVAE-GAN将样本的分位数回归输出y作为额外的条件嵌入到生成式对抗结构中,影响输入变量x的生成,使得模型具有更好的生成和预测能力。QRVAE-GAN模型可以大幅度提升训练速度,并且可以提高虚拟样本生成质量和增加样本多样性。4、将生成的虚拟样本扩充到原始数据集中,利用扩充后的训练数据集对所提出的神经网络模型进行训练,以提升智能数据驱动建模的精度和鲁棒性。本文使用具有复杂非线性关系的多变量基准函数验证提出方法的有效性和普适性,同时,将提出的方法应用到高密度聚乙烯和精对苯二甲酸溶剂系统两个实际工业过程的数据驱动建模中。多个基准函数数据集及两个实际工业过程数据集的验证结果显示,本文所提出的神经网络模型具有较快的训练速度和较好的泛化能力,且本文的虚拟样本生成方法可以有效地实现数据增强,进一步提高数据驱动模型性能。

其他文献

命名数据网络中分级数据缓存研究

学位

铸牢中华民族共同体意识视域下的民族团结进步地方立法完善研究

学位

明中叶播州土司杨氏家族内争研究

学位

麦考密克法律推理理论研究

学位

命名数据网络中兴趣泛洪攻击防御策略研究

命名数据网络（Named Data Networking,NDN）作为一种以内容为中心的新型网络架构,通过有状态的转发机制来完成数据的通信,然而,恶意用户产生大量网络流量造成网络资源被滥用、网络性能降低、正常用户的请求得不到满足,这种攻击被称为兴趣泛洪攻击（Interest Flooding Attack,IFA）。在IFA中,恶意用户产生的网络流量不携带任何源信息,而且由于恶意用户行为的多样性导

学位

蒙古文形态分析与应用研究

从自然语言处理的角度来看,蒙古文属于低资源语言,具有形态复杂、词汇量大、外来词多等特点,这给蒙古文信息处理带来巨大挑战。蒙古文形态分析是蒙古文信息处理的关键预处理步骤,通常用于解决蒙古文信息处理任务中语料稀缺和词汇量大的问题。蒙古文形态分析包含蒙古文形态切分和标注两个子任务,其中蒙古文形态切分是将蒙古文单词切分为词干与词缀的形式,形成词素序列,是蒙古文构词的逆过程。蒙古文形态标注是给词素标注对应形

学位

浅水湖泊乌梁素海温室气体动态及其影响机制研究

湖泊是温室气体重要的排放源,尤其是浅水湖泊,温室气体排放估算具有不确定性,明确富营养化对其温室气体动态的影响有助于提升区域碳预算准确性,亦可为湖泊治理过程中碳排放控制提供数据支持。本研究选取旱区浅水富营养化湖泊乌梁素海为研究对象,于2019-2020连续两年,在不同水质类型区7个采样点,采用顶空平衡-漂浮箱-气相色谱法,对水-气界面和沉积物-水界面湖泊温室气体动态及其影响机制进行研究。主要结果如下

学位

颈源性头痛、头晕的手法治疗

期刊

半干旱区流域植被生态过程及其与水文的响应机制研究

植被与水文响应机制研究是流域生态水文过程研究的热点问题之一。为防治黄河淤堵、减少流域内水土流失以保障流域生态安全,自20世纪90年代以来,在我国黄土高原地区开展了大量植被恢复和小流域治理等生态工程,其中黄河内蒙古段右岸的十大孔兑（支流）是重点治理区域之一。而了解水分在植被–土壤–地表水–地下水之间的运移途径及规律对于准确评估干旱半干旱区典型流域生态恢复和小流域治理后植被与水文过程之间的响应机制,揭

学位

试论环境艺术设计教育存在的问题及策略

环境艺术设计作为艺术中的重要组成,是时代发展的产物,在社会经济快速发展背景下,环境艺术的运用,能够促进人们实际生活水平的提升,也能使人们之间形成较好的艺术审美。由此可见,环境艺术和社会发展、人们生活紧密相关。但是当前环境艺术设计教育中还存在一些问题,这些问题需要实施针对性解决策略。

期刊

基于机器学习的工业过程数据驱动建模及数据扩充方法研究

与本文相关的学术论文