论文部分内容阅读
在近红外光谱的建模预测分析中,数据的冗余及共线性会严重影响模型的预测精度和稳健性.特征波长选择是提高定量分析预测精度的一种有效方法.随机蛙跳(R F)是一种依据不同的变量具有不同的被选择可能性的特征波长选择算法,近年来在特征波长提取方面逐渐展现良好的性能.该方法通过多次迭代,计算每个变量被选择的概率,以优选概率高的变量为特征波长.但由于其初始变量集V0的产生是随机的,具有较大的不确定性,可能会包含无用或干扰信息,难以保证初始信息的有效性,使得迭代次数过大,运行时间过长.针对RF算法提出一种改进的联合区间随机蛙跳(Si-RF)特征波长选择算法,通过联合区间偏最小二乘法(SiPLS)对全谱进行变量初选,此时得到的波长对目标变量变化最为敏感,将其作为RF的初始变量子集,以解决RF运行时间较长、效率较低的问题.另一方面,RF在选择特征波长时,选择被选概率值大于阈值的变量为特征波长,但对概率值阈值的设定无理论依据,易受人为因素影响.通过对变量按被选概率值降序排列后逐次增加一个波长建立多元线性回归(MLR)模型,以验证均方根误差(RMSEV)值最低时的变量子集为特征波长,以找到预测精度最高点所包含的波长,提高预测精度.针对上述两点进行改进,将其应用于一组土壤样本近红外光谱数据集,进行特征波长选择后,建立MLR模型,与RF-MLR及全谱-PLSR模型的预测精度进行比较.结果表明:RF经过10000次迭代,优选出10个波长点,建立的M L R模型的预测均方根误差(RMSEP)为1.6276;而改进后Si-RF只需进行1000次迭代,优选出17个波长点,其MLR模型的RMSEP减小到0.8184,大大提升了预测精度,提高运行效率.相较于全谱,也极大的提高了预测精度,简化模型的复杂度,证明改进的Si-RF是一种有效的特征波长选择算法.