论文部分内容阅读
复杂工业过程的建模广泛采用数据驱动的建模方法,但是数据的高维、冗余以及噪声等特征对模型的影响很大。针对数据冗余严重影响模型的泛化能力这一问题本文展开了深入的研究。本文采用基于信息熵的样本选择方法去除冗余数据。冗余的大小与数据出现的概率有关,冗余度越高,样本集的信息熵就越小,因此可以认为当样本个数一定时,熵值最大的样本集数据冗余度较低。本文采用样本交换的方式选取样本,结果表明这种方法可以简单有效的去除冗余样本,获得冗余度较低的样本数据。为了能够基于样本子集(选择算法得到的样本数据)建立有效的模型,本文选用最小二乘支持向量机(LS-SVM)的建模方法进行建模。基于样本子集的LS-SVM建模方法将样本子集数据作为支持向量来求解原LS-SVM建模问题。经过仿真验证,采用该方法建立的模型具有很好的泛化能力,但其性能受样本子集的样本个数影响很大。本文采用多次样本选择的方法来弥补这种问题带来的不足,从而得到多个样本数量不同的样本子集并基于这些样本子集建立了多个模型。经过分析,这些模型存在着很强的多样性,最终决定将多个模型结合起来建立多模型。本文采取加权求和的结构将多个子模型的输出融合到一起。基于最大熵原理本文提出采取基于信息熵的模型融合方法将子模型的输出融合到一起。最后通过求解一个多目标优化问题得到各个子模型的权值系数,最终建立起多模型。本文最后将这种基于信息熵的多模型建模方法应用到电弧炉炼钢过程中,建立钢水终点温度预报模型。仿真验证表明,该方法是一种十分有效的建模方法。与单模型相比具有更强的泛化能力。