论文部分内容阅读
土壤有机质是土壤肥力和土壤质量的重要指标,传统实验室化学分析方法测量土壤理化成分,虽然精度较高,但是其分析过程周期长、成本高、一次只能检测一个目标,且对环境有一定污染,很难大规模推广使用。鉴于土壤有机质含量的重要性,迫切需求一种快速简便、成本低、环保无污染的检测方法。可见-近红外光谱分析技术能够快速获取土壤表面的反射光谱信息,且由于其极高的光谱分辨率,可以产生一条完整连续的、能够反映地物信息的光谱曲线,这使得可见-近红外光谱分析技术在土壤理化成分的预测分析中表现出巨大的潜力。本文共采集青海省湟水流域土壤表层样品共428个,于室内利用ASD FieldSpec4地物光谱仪(光谱范围为350~2500 nm)进行光谱采集,并对有机质含量成分进行分析测定,原始光谱经光谱预处理和特征波长筛选后,分别建立偏有机质的最小二乘(PLSR)、支持向量机(SVM)和随机森林(RF)回归模型,探讨采用Vis-NIR光谱和回归技术快速估测土壤有机质含量的可行性,为数字化土壤制图、土地质量评价等提供了新的思路。主要研究内容和结果如下:(1)分别基于原始光谱和预处理光谱,应用浓度梯度法和Kennard-Stone法按2:1比例挑选校正和验证集样品,构建PLSR模型。两种光谱模式下,基于浓度梯度法的PLSR模型获得的决定系数(R~2)和相对分析误差(RPD)均高于Kennard-Stone法。浓度梯度法所划分的校正集样品组分含量能够涵盖验证集样品组分含量,避免了过多的“特殊”样品划分为校正集,所建立的模型才能够更好的预测未知样品。(2)对比12种土壤光谱预处理算法得PLSR模型精度,最优的光谱预处理算法为多元散射校正(MSC)、中值滤波(MF)及一阶微分(1st Der)的联合使用,即基于MSC-MF-1st Der算法,其建立的PLSR模型获得的R~2为0.84,RPD为2.5,优于原始光谱PLSR模型精度,具有较好的预测能力。(3)应用稳定竞争性自适应重加权算法(sCARS)、连续投影算法(SPA)、遗传算法(GA)、迭代保留有效信息(IRIV)及sCARS-SPA算法从原始光谱和MSC-MF-1st Der预处理光谱中挑选特征变量,5种变量筛选方法挑选的特征变量主要分布在近红外光谱区域。(4)原始光谱经MSC-MF-1st Der预处理后,6种光谱变量(全波段和5种特征波段)PLSR和RF模型精度均高于原始光谱。除了SPA特征变量外,其他5种光谱变量SVM模型精度均高于原始光谱。对原始光谱进行预处理,可以提高光谱模型的精度。(5)光谱预处理后,基于全波段和5种特征波段分别构建有机质的PLSR、SVM和RF模型。PLSR和SVM模型采用特征波段变量建模,所构建模型的变量数显著减少,且模型的预测能力较全波段均有一定提高。RF模型6种光谱变量验证集R~2标准差为0.00232,R~2基本没有明显变化,因此RF模型采用特征波段建模,对模型精度的提高帮助不大,但其构建模型的变量数量却显著减少,大大提高了建模效率。对全波段光谱进行特征变量筛选,在保证模型精度的同时大大降低了模型的复杂度,提高了建模效率。5种算法简化模型能力的顺序如下:sCARS>IRVI>GA>sCARS-SPA>SPA。(6)RF模型的预测效果最佳,优于SVM模型和PLSR模型。MSC-MF-1st Der-sCARS-RF预测效果最佳,特征变量数为51个,仅占全波段的2.55%,验证集R~2为0.958,RPD为4.5,能够很好的预测土壤有机质含量。土壤有机质与光谱之间并非简单的线性关系,因此PLSR模型表现出了一定的局限性,而SVM和RF模型可较好的解决独立变量和因变量之间复杂的非线性关系;但SVM模型易因较高的频谱噪声引起严重的偏差估计,模型精度降低;RF具有较好的抗噪声能力,使建立的模型精度较高且具有较好的鲁棒性。