论文部分内容阅读
摘要:分子光谱是一种常用的获得物质定性和定量信息的分析手段,主要包括紫外-可见光谱(Ultraviolet-Visible Spectroscopy)、近红外光谱(Near Infrared Spectroscopy)、中红外光谱(Mid-Infrared Spectroscopy)、拉曼光谱(Raman Spectroscopy)和荧光光谱(Fluorescence Spectroscopy)等。因为分子光谱测试简单便捷、适合于多种形态的样本分析且信息丰富,在化学成分分析中有着非常广泛的应用。尤其是近红外光谱和拉曼光谱与多元校正方法相结合,不需做样本预处理,可实现样本的无损在线分析,广泛应用于各个领域。然而,由于干扰和其它光学效应的存在,此类光谱一般具有背景复杂,谱峰重叠,信号弱等特点。因此,如何从复杂、重叠的分子光谱信号中提取微弱的有用信息,并建立满足需要的校正模型是目前基于分子光谱技术进行定性和定量分析的关键,直接决定该项技术的可用性。基于此,本论文主要以近红外光谱和拉曼光谱为对象,对影响分子光谱建模的奇异样本检测、光谱预处理、波长选择、多元校正模型建立和转移方法、光谱融合等方面进行了研究,主要内容包括:一、奇异样本的消除与否对模型的稳健性和预测精度有着重要影响,分子光谱的建模大量应用了主成分回归和偏最小二乘回归等非稳健的多元校正方法,采用这些方法进行建模之前,应对光谱数据的奇异点进行检测和剔除。由于光谱的高度相似性,我们只能够借助于些数学方法来对这些样品进行评估和诊断。本文采用了基于蒙特卡洛采样的奇异样本诊断方法,对近红外光谱测定液态牛奶的蛋白质和脂肪含量数据及拉曼光谱测定汽油中总烯烃含量的数据进行了诊断,并与经典方法马氏距离法和稳健偏最小二乘法进行了比较,结果表明,采用基于蒙特卡罗采样的方法能够有效的剔除数据中的奇异样品,显著提高模型的预测精度,其结果优于马氏距离法和稳健偏最小二乘法,可以在光谱分析的数据诊断中发挥有效作用。二、分子光谱数据的共线性十分严重,通过筛选特征波长(波数)建模可以简化模型并提高模型的预测能力和稳健性。本文分别通过对不同食醋种类的近红外光谱识别,食醋总酸含量的近红外光谱测定,不同植物油的拉曼光谱识别及白酒中乙醇含量的拉曼光谱测定四个应用对象进行研究,引入竞争自适应重加权采样(Competitive AdaptiveReweighted Sampling, CARS)方法选择关键波长(波数)建立模型,采用这些关键波长(波数)建立的模型,模型复杂度降低且预测误差有了显著的减小,证明了CARS方法可以和光谱分析相结合,在光谱定性和定量应用中起到较好的作用。三、多元校正模型的建立是进行分子光谱定性定量分析的基础,新型建模方法一直是本领域研究的热点之一。本文针对不同光谱数据的特点,结合机器学习的最近进展,发展了两种新的光谱定性定量分析多元校正方法。第一种方法是结合小波变换和随机森林(Random Forest, RF)的分类方法,用于近红外光谱对蜂蜜掺假的鉴别。小波分解和重建可以压缩光谱数据并过滤掉噪声等干扰信息,而随机森林方法作为一种包含多个决策树的分类器具有优良的分类效果,可以提高光谱定性识别的正确率。第二种方法是小波变换结合支持向量机(Support Vector Machines, SVM)方法,用于拉曼光谱对汽油中总芳烃含量的测定。同样采用小波分解和重建压缩过滤光谱之后,采用基于结构风险最小化的SVM模型进行预测,与偏最小二乘法(PLS)的结果比较表明,该方法能够提升预测结果。四、为了解决不同光谱仪器之间光谱的差异性问题,提出了一种基于典型相关分析的光谱多元校正模型转移新方法。典型相关分析是一种能够有效地揭示两组变量之间相互线性依赖关系的多元统计分析方法。在本方法中,我们首先对原光谱和目标光谱进行典型相关分析,然后用所得到的典型相关变量进行转换。因为两组光谱之间反应被测物信息的部分是一致的,应该是相互线性相关的,而噪声和干扰信息是随机的,所以是无关的。结果表明,采用典型相关变量进行转换,可以从整体光谱中提取有效信息,同时滤除噪声和干扰信息,得到较好的模型转移结果。五、光谱分析的预测质量主要取决于多元校正模型的质量。因此模型建立之后的验证也十分重要。当前,模型验证一般建立在一个单独的测试集或者固定样本分组后的单次交叉检验上,这样的比较方法在小数量样本上具有得出错误结论的风险。基于此,我们根据模型集群分析的思路,通过不断改变测试集与训练集的样本划分,获取了不同样本集的预测误差的分布,并可以对它们进行统计检验,可以得到可靠的结论。结果表明,这样能够提高模型验证比较的可靠性。六、近红外光谱和拉曼光谱均具有多种不同种类的仪器,包括实验室研究型或者便携式仪器,傅立叶变换型或者CCD检测器型等。这些仪器具有不同的分辨率以及性能。结合合适的化学计量学处理方法,较弱性能的仪器数据有可能达到和较高性能仪器数据相类似的预测效果。本文基于此,对不同分辨率的光谱仪器测试了相同的样本,分别加以处理后,对预测结果进行了统计检验,结果表明,合适的数据处理方法可以大幅提高较弱性能仪器的预测结果,并达到与较高性能的仪器预测结果相类似的水平。七、不同的分子光谱具有不同的特点和优势。本文基于近红外光谱和拉曼光谱的互补特性,提出一种将近红外光谱和拉曼光谱融合建模的新方法,通过将两种预处理之后的光谱以主成分的形式连接起来,融合两种光谱的信息进行建模,结果表明模型的预测精度比单一近红外光谱或拉曼光谱所建立模型的预测精度高,可作为分子光谱分析的一个新思路。