论文部分内容阅读
森林资源调查外业过程中需要调查的因子众多且数据量庞大,实际调查中由于某些样地地理位置复杂不可及或者难进入等,导致收集到的数据不完整。面对森林资源抽样调查中数据缺失现象时常发生的问题,为了提高数据分析的准确性,有必要对缺失数据填充方法进行研究。本文以湖南省郴州市2014年森林资源连续清查数据及同期Landsat8 OLI遥感影像为主要数据源,以样地内林木平均胸径为设定的缺失因子,在对其空间自相关分析和半方差分析的基础上,对缺失数据进行空间填充、非空间填充和基于估测模型的遥感填充,并采用十折交叉验证法对各种模型进行误差分析和精度评价,以期选出适合样地调查中缺失数据的最优填充方法,提高数据的准确性和精确度,从而为森林资源调查统计提供可靠的数据基础。研究得到以下结论:(1)从地统计学角度对郴州市固定样地林木平均胸径进行分析发现,样地平均胸径的全局Moran’s I指数为0.114,标准化Z值为5.334,空间分布表现出一种显著的空间自相关性,主要呈现出高值的空间聚集现象;少部分区域表现较为显著的负相关,即高值包围低值或低值包围高值的现象,低值一般表现的较为分散。研究区样地的林木平均胸径同时还表现出一定的空间异质性,利用半方差分析发现平均胸径的空间异质性明显,且在20.7km的变程内存在一定的空间自相关性;固定样地间距所对应下的平均胸径空间格局呈现中等偏向较强的空间自相关性,它的变异性主要由结构性因素例如气候、地形等自相关部分造成,而随机因素如除草、施肥、间伐等人为措施所产生的影响程度较弱,这种变异规律可以由半方差理论函数中的指数模型较好的拟合。(2)对比两种非空间填充方法,发现最大期望值算法(EM算法)对缺失数据的填充精度略高于简单回归算法,但基于传统统计学原理的非空间填充忽略了变量的空间分布特点,填补的整体效果很差。在地统计学分析基础上进行的空间填充方法中,克里金插值填充的精度达到了0.46,是三种空间插值方法中最高,原因在于克里金插值在地统计学基础上充分考虑了采样点间的相互关系和空间分布位置等几何特征;在克里金插值函数的几种模型中,指数函数的插值精度最高,这与林木平均胸径数据半变异理论函数拟合精度最高的模型为指数函数相一致。空间填充方法中精度位其次的是距离权重反比,样条函数法精度最低。整体效果上看,考虑到数据空间位置分布效应基础上的空间填补效果是明显优于非空间填补方法的,对于存在地理位置空间分布效应的数据来说,缺失值填补必须要考虑到变量的空间分布特点,在地统计学基础上进行填充可以很大程度上提高精度。(3)从遥感模型对平均胸径的填充精度中可以得到,5种遥感估测模型中随机森林算法的综合性能是最好的,填充精度达到了0.76,它由多个决策树分类器组合而成,分类时可以多个决策树同时进行,能够充分利用6个环境变量的信息;K近邻算法第二,它能够较好地反映相邻像元间的相互影响;装袋算法模型性能适中,人工神经元网络模型较差,而多元线性回归最低。在6个环境变量中只有海拔和土壤及植被中的湿度是影响研究区林木平均胸径的重要因子。(4)对比空间填充中精度最高的克里金插值和遥感填充模型中精度最高的随机森林得出随机森林填充的精度比克里金插值的精度更高,误差更小。通过随机森林反演填充得到的郴州市平均胸径空间分布图更加精细,可辨识度也更高;郴州市境内林木的平均胸径呈现一种西部较低、东部较高的趋势,能够和实地清查数据保持良好的一致性,说明随机森林可以较准确地填充实地调查中的缺失数据。(5)郴州市样地点林木平均胸径的空间分布和海拔、水资源的空间分布格局也有着较高的一致性,说明海拔和水文是影响郴州市林分胸径的重要因素。郴州市内平均胸径最大的区县是桂东县,其次是汝城县和资兴市;而平均胸径比较小的区域集中在西部嘉禾县和宜章县。平均胸径从小到大所对应的面积呈现逐渐减少的趋势,表现出小径材林分面积较大、大径材林分面积较少的特点。结果表明,郴州市森林资源调查过程中胸径因子的分布存在显著的空间自相关和空间异质性;针对其中平均胸径数据量的缺失,克里金插值法和随机森林遥感填充模型可以有效地进行缺失数据填充,但比较之下利用随机森林机器学习算法通过森林参数反演进行填充是林业调查数据缺失时的最优填充方法。