论文部分内容阅读
在近红外定量分析中,样本集选择是影响模型稳健性的关键因素之一,它直接影响着模型的预测能力和适应性。样本集选择方法可分为常规选择和计算机识别两种。常规选择通常需要大量的样本积累和化学测定,耗费大量的人力物力,而现有的计算机识别方法则需要复杂的编程和人为界定中间参数,从而限定方法进一步推广应用。
本文提出了仅依靠光谱数据第一主成分得分或综合主成分得分进行样本优选的新方法,分别简称为综合主成分法和单主成分法。本文借助通用的商业软件SPSS对418个烟草样本光谱进行主成分分析,利用提取的光谱主成分得分信息优选出约105个样本(备选样本总体的1/4)的校正样本集,并与随机法、含量梯度法的优选性能进行了对比。实际建模验证表明,本文提出的方法既克服了随机法挑选样本代表性不足的风险,又可避免含量梯度法必须测定所有样本成分含量而造成的人力物力消耗,具有无需编程、操作简单、易于推广的特点。
校正集样本的数量是影响模型稳健性的重要因素,也直接决定着模型构建时工作量的大小。本文使用含量梯度法从418个烟草样本中分别均匀选取53个、105个、209个、314个、418个样本作为校正集,并进行实际建模验证,通过决定系数(R<2>)、校正标准差(SEE)、预测标准差(SEP)以及外部验证集检验评价各模型的性能,探讨了校正集样本数量对模型稳健性的影响。
本文主要研究内容如下:
1.分别使用随机法、含量梯度法对418个烟草样本进行选择,得到包含约四分之一样本的校正样本集,通过烟碱成分实际建模验证研究两种方法对模型稳健性的影响。
2.分别使用全谱数据和有限光谱数据进行主成分分析,采用单主成分法、综合主成分法对418个烟草样本进行优选,得到包含约四分之一样本的校正样本集,通过烟碱成分实际建模验证研究两种方法对模型稳健性的影响。
3.使用含量梯度法从418个烟草样本中选取不同数量样本作为校正集,通过烟碱成分实际建模验证探讨了校正集样本数量对模型稳健性的影响。