论文部分内容阅读
红外光谱分析技术(包括近红外,中红外和远红外3个区域)是一种将光谱测量技术、化学计量学技术、计算机技术与基础测试技术交叉结合的现代分析技术,可同时对复杂样品中的不同成分进行直接测量分析,准确反映出样品的整体组成与结构。它具有无需样品准备、分析高效快速、分析结果重复性和再现性强、实时在线检测等优点,因此在农业、生物、食品、医药、化工等领域得到广泛应用。对于一些简单的样品,传统的线性多元校正方法能够很好地解决红外光谱的定量分析问题。然而,对于大多数复杂样品来说,光谱变量与浓度或性质之间具有一定的非线性,特别是当样品的含量范围较大时,其非线性也可能会更显著。此外,一些物理(光学散射等)和化学(不同组分间的相互作用、氢键效应等)因素也会引起非线性问题。因此,如何建立拥有精度高、鲁棒性强和良好解释能力的非线性校正模型依然是红外光谱定量分析研究领域的难题。在本论文中,从所分析样品的非线性来源出发,提出了几种新的非线性校正模型,包括: (1)针对二元羟基化合物混合溶液中存在的不同分子之间的强烈相互作用,分别提出了基于多项式的最小二乘(Polynomial Based Least Squares:LSP)和总体最小二乘(Polynomial Based Total Least Squares: TLSP)两种模型来描述其浓度和吸光度之间的非线性关系。LSP和TLSP均通过多项式函数中的高阶项来补偿混合溶液中的非线性。两者的根本区别在于前者只考虑吸光度噪声的存在,而后者同时考虑吸光度和浓度噪声。此外,基于整体和局部的求解策略,Limited-memory Broyden-Fletcher-Goldfarb-Shanno(LBFGS)和Levenberg-Marquardt(LM)两种优化算法分别与TLSP模型相结合,从而形成了两种不同版本的TLSP(简记为TLSP-LBFGS和TLSP-LM)。LSP、TLSP-LM及TLSP-LBFGS模型的参数(多项式函数的阶次)均由留一交叉验证来决定。实验以水-乙醇和乙醇-乳酸乙酯两种溶液为例,从吸光度预测和浓度预测两个不同的角度出发分别研究了傅里叶变换-衰减全反射(FTIR-ATR)红外光谱与浓度之间的非线性关系。实验结果表明,与线性的经典最小二乘(Classical Least Squares: CLS)模型相比,LSP,TLSP-LBFGS和TLSP-LM不仅获得较小的均方根预测误差,还可以大大提高纯组分谱估计的准确性。 (2)针对复杂样品中的某些响应变量范围过大而导致的非线性问题,提出了一种基于偏最小二乘(Partial Least Squares: PLS)和分片样条变换(SliceTransform: SLT)的混合校正模型(PLS-SLT)。该模型在保持原有PLS模型框架不变的情况下,利用SLT良好的分段线性映射特性来进一步挖掘PLS预测值与真实值之间的非线性关系。通过这种简单的线性处理方式轻易实现了在响应变量空间上的分段线性建模,因此PLS-SLT具有强大的灵活性,良好的自适应能力以及广泛的实用性。实验结果表明PLS-SLT可以显著提高PLS模型的预测精度。 (3)针对红外光谱数据的非线性特性,提出了一种基于分片样条变换的分段线性内部关系的非线性偏最小二乘(Nonlinear Partial Least Squareswith Slice Transform Based piecewise linear inner relation: NPLSSLT)模型。在保留PLS外部关系不变的前提下,NPLSSLT将原有的线性内部模型修正为基于SLT的分段线性模型。此外,针对基于误差的权重更新(Error Based WeightUpdating: EBWU)策略中存在的多元共线性难题,采用PLS去改善EBWU,从而形成一种嵌套的PLS结构。实验结果表明,一方面NPLSSLT模型可以降低PLS的潜变量数目,提高PLS模型的解释能力;另一方面,对于非线性严重的光谱数据,NPLSSLT可以显著提高PLS的预测精度。