论文部分内容阅读
傅里叶变换红外光谱(Fourier Transform Infrared Spectroscopy,FTIR)技术已在农业、工业、食品、环境、制药等各个领域的定量分析中得到了广泛的应用。定量分析是红外光谱分析领域的核心问题之一,红外光谱定量分析是利用已获取的红外光谱及其对应的物理化学特征建立定量分析模型,并通过此模型对未知光谱对应的特征进行估计的一种方法。FTIR红外光谱结合化学计量学方法进行定量分析的过程中,异常样本的存在会显著降低模型的稳定性和预测精度;完整光谱中的噪声、无信息变量以及干扰波长会増加模型复杂度,影响模型的预测性能;此外,近年来深度学习算法的发展为红外光谱定量模型的建立提供了新的思路。本文针对以上几个问题开展了深入研究,完成的主要研究工作和成果总结如下:1)提出了一种改进蒙特卡洛采样的MCCV法识别异常样本。针对蒙特卡洛交叉验证(Monte Carlo Cross Validation,MCCV)均值-方差图法识别异常样本的过程中以等概率选取所有样本进入建模子集,以及采用经验值法设置阈值等问题,通过改变蒙特卡洛随机采样的样本集范围,保证仅正常样本作为建模子集,从而提高异常样本的识别率,同时对改进蒙特卡洛采样的MCCV法筛选出的可疑异常样本进行二次筛选,减少对正常样本的误判率。实验结果验证了改进蒙特卡洛采样的MCCV法的有效性。2)提出了一种移动窗口改进MCUVE-SPA的波长选择算法。针对蒙特卡洛无信息变量消除(Monte Carlo-Uninformative Variable Elimination,MC-UVE)串联连续投影算法(Successive Projections Algorithm,SPA)可能会造成孤立的波长点,利用分子光谱中的大多有效波长具有一定的连续性,使用移动窗口以优选的波长点为起点或中心改进算法,保留有效波长点的连续性,从而改善算法预测模型的精度。实验结果验证了该算法的有效性。3)提出了相关系数-组合区间偏最小二乘法(Correlation Coefficient-Si PLS,CC-Si PLS)。针对组合区间偏最小二乘(Synergy Interval PLS,Si PLS)算法不考虑区间内与组分信息无关的变量的缺点,首先优选出与目标组分信息相关度较高的波长变量,然后再将优选出的波长变量利用Si PLS进行组合区间变量的选择,进一步简化预测模型。实验结果验证了算法的有效性。4)针对光谱预处理对波长选择算法结果的影响进行研究。实验分析了5种预处理方法对波长选择结果的分布情况及所建模型预测情况的影响,结果表明不同的预处理方式和波长选择算法对选择波长的分布及建模效果均有影响。5)提出了一种基于Blending集成学习算法的红外光谱定量回归模型。针对深度学习在红外光谱定量分析领域应用较少,利用梯度提升决策树(Gradient Boosting Decision Tree,GBDT)、线性核函数支持向量机和高斯核函数支持向量机作为基学习器,将GDBT特征与支持向量机特征进行融合,并将其预测结果与GBDT模型和单核支持向量回归模型预测结果进行分析和对比。实验结果表明,集成学习Blending模型用于红外光谱定量回归具有较强的适用性、较高的预测精度和泛化能力。