论文部分内容阅读
随着数字化技术的广泛应用以及网络科技的快速发展,在大规模化工流程工业中所采集到的时间序列数据大都呈现出高维、非线性、不确定性以及不完整性等特征,这对传统的数据挖掘技术提出了巨大的挑战。与传统的数据分析相比,统计学习理论凭借着良好的可理解性以及对不确定性的容忍性已经引起了学术界和工业界的广泛关注。本论文主要以工业过程监测为研究背景,以统计学习中的相关理论为基础,集中解决了工业生产过程中所广泛存在的不确定性以及非线性等问题,并在数值仿真与工业流程数据上验证了所提出方法的有效性和可行性。本文主要的研究内容和贡献如下:Ⅰ.针对多核学习中的非凸优化问题,提出了一种基于非精确投影法的通用多核学习模型GCISP.MKL(Generalized Convexity-based Inexact Projection for Multiple Kernel Learning)和相应的学习算法,该方法在保证平滑性的同时能够在有限内存空间内高效、准确地收敛于驻点。对该模型广义凸性的理论研究发现,该通用模型的目标函数是一种严格伪凸函数,而约束条件是一种伪线性函数,因此该优化问题的原始问题及其对偶问题间是强对偶的。为了提高算法的计算效率,通过L-BFGS法对优化问题中的Hessian矩阵进行近似,这样可以加快收敛速度。Ⅱ.针对封装式特征选择方法所存在的特征单调性问题以及大规模化工过程数据中出现的维度爆炸问题,提出了一种基于多核技术的非单调特征选择算法PrimMKL-FS (Primal method for Multiple Kernel Learning-based Feature Selection).通过对多核学习的理论分析发现,核矩阵的权重项对数据特征的重要程度具有指示作用,以此为基础建立了相应的优化问题,并提出了一种基于Nesterov投影梯度下降的优化算法直接对优化的原始问题搜索最优解,并利用所得到的最优组合权重对特征权重进行分配。Ⅲ.针对实际生产过程中变量间的相关性难以满足传统分析法的基本假设(即观测变量服从Gaussian分布),提出了一种基于独立元分析-深度网络的多变量统计过程监测法ICA-Sparse Autoencodera该方法利用独立元分析法提取出非高斯分布中的隐含变量,对残差序列运用深度网络以解决序列中的非线性问题。同时,在深度网络中为了避免模型陷入局部极值,提出了一种受限Boltzmann机的预训练机制,并利用L-BFGS算法对深度网络中的参数进行更新优化。Ⅳ.针对传统多变量统计过程监测法难以得到概率性输出的问题,设计出一种基于高斯混合模型的鲁棒贝叶斯模型BRR (Bayesian Robust Regression),该模型能够有效处理系统中的非确定性,同时计算出后验概率。针对高斯混合模型中存在的两个主要问题:对离群点缺乏鲁棒性以及无穷问题,在模型中引入一种准确度权重来识别出过程中的离群点和噪声,并捕捉数据的局部特性;在逆协方差矩阵上放置了一种逆Wishart分布的先验知识以避免无穷问题的出现;为了体现出模型成分重要程度的不同,将混合权重的先验设计为一种基于混合比例概率性参数序列的Dirichlet分布。V针对有限高斯混合模型关于混合模型的数量易产生过拟合现象的问题,提出了一种基于Dirichlet混合过程模型的非参数Bayesian故障诊断方法。该模型通过假设样本中存在无限数量的簇,在后验中可以得到关于簇的数量、簇中的数据和簇相关参数的分布,在一定程度上避免了过拟合现象的出现。该方法对于混合权重附加了一种先验分布,并利用stick-breaking构造法建立起一种Dirichlet混合过程模型,在变分推理过程中采用截断作用,并根据自由能反复修正截断模型,使得模型选择和推理过程有机地结合在一起。最后,在总结全文的主要研究工作基础上,对这一研究领域的未来研究重点与方向进行了展望。