论文部分内容阅读
森林地上生物量(Above Ground Biomass,AGB)是衡量生态系统生产力的重要标志,也是研究森林生态系统物质循环的基础。激光雷达技术不仅能获取森林的垂直结构信息且具有不存在信号饱和的优点。机器学习方法能提高森林地上生物量的预测精度,同时还可以克服传统回归方程泛化能力差的缺点。在使用激光雷达技术和机器学习方法预测森林地上生物量时存在较多的特征变量,不同的特征变量也会导致预测精度存在差异,多数前人研究中仅使用一种特征选择方法。因此,本文以美国缅因州的佩诺布斯科特森林为研究对象,选取森林的百分位密度和百分位高度作为估测森林地上生物量的特征,借助Python和Scikit-learn编程平台使用Spearman相关系数法、LightGBM(Light Gradient Boosting Machine)算法和随机森林-递归特征消除法三种特征选择方法对特征进行筛选,并使用线性回归模型、随机森林算法和支持向量机算法对样地的森林地上生物量进行预测,旨在对比分析出较优的方法,为森林资源调查人员提供参考。论文研究内容和结论如下:(1)使用Spearman相关系数法、LightGBM算法和随机森林-递归特征消除方法对百分位高度和百分位密度共计22个特征进行筛选。Spearman相关系数法筛选的结果中,生物量与高度特征的相关性均在0.5以上,密度特征中仅有两个特征与生物量的相关性在0.5以上,其余是弱关性和负相关性,LightGBM算法和随机森林-递归特征消除方法对高度特征和密度特征进行重要性排序的结果中,高度特征的重要性明显大于密度特征的重要性。研究表明:生物量与森林的高度特征相关性较强,而与森林的密度相关性较弱。(2)结合筛选的特征分别使用线性回归、随机森林算法和支持向量机算法对森林地上生物量进行预测。随机森林算法对应的三种特征选择方法的预测精度均取得最大值。研究表明:随机森林算法要优于其余两种方法,且训练样本的数量对预测精度也有影响,训练集数量一般在样本数量60%-70%为宜。(3)结合全部特征分别使用线性回归、随机森林算法和支持向量机算法预测森林生物量,对应的预测精度R2分别为0.7119、0.7921和0.7595,而经过选择的特征对应的预测精度R2分别为0.7679、0.8679和0.8594。研究表明:森林地上生物量的预测精度并非与特征数量是正相关性,选择适当的特征有助于提高模型的预测精度。(4)线性回归模型中,Spearman相关系数法选择的特征预测的生物量的平均精度R2=0.5278,LightGBM算法选择的特征预测的生物量的平均精度R2=0.6975,随机森林-递归特征消除法选择的特征预测的生物量的平均精度R2=0.6823,随机森林算法中,对应的预测平均精度R2=0.7314、0.8255、0.7877,支持向量机算法中,对应的预测平均精度R2=0.6818、0.8166、0.7366。研究表明:Spearman相关系数法选择的特征预测的生物量精度最差,LightGBM选择的特征预测的生物量精度最优。