论文部分内容阅读
优化的采样策略是对采样强度、分析成本及其研究精度三方面的均衡,即以最小的经济投入换取最大化的实验精度。采样调查是土壤特性分析的重要手段,同时也广泛地应用于地理研究、环境评估、资源考察等领域,是开展相关实验研究的基础和前提,采样方案设定是否科学不仅对研究工作开展的进程有极大影响,也决定着研究结果的准确性和科学性,因此,如何科学地优化采样策略,是每个研究者共同关注的一个重点和难点问题。随着采样区域的扩大、传感器设备及采样方法的发展,土壤特性研究所需采集的项目越来越多,研究精度也越来越高,庞大的样本数据集和高纬度的数据构成对数据预处理带来了趋于严峻的挑战。而离群样点检测通常是数据预处理的关键任务,对于采样调查而言,离群样点的存在对研究对象的空间变异性及合理采样数的影响程度成为亟待研究的问题。对于具有空间分布属性的数据集,离群样点必然导致研究结果存在一定程度的偏差,甚至对研究结果产生不可小视的影响。为此,需要在数据集中将离群样点检测并筛选出来,以便于数据集的预处理以及进一步分析离群样点产生的机理,故而,需要探究一种适用于土壤特性空间数据集的离群样点检测模型。国内外的采样设计多基于模型来优化,其缺陷在于不适用于初步采样,而偏重为多次采样和后期监测点的布置提供参考,同时,支撑其理论的初步采样数据,往往遵循随机抽样,忽略了空间相关性,在一定程度上将造成结果偏差。针对以上问题,本研究建立了一种可赋权、信息传递完整、包容性强(可涵盖定性、定量两类协同因子)的基于优先级指数的土壤采样设计方法。针对该法提供了一种基于聚类法的代表性验证方法,其中,为避免定性与定量协同因子之间计量运算困难,对数据集间的欧式距离公式和中心点公式进行了修正,并引入贴近度、紧致与分离性效果两个修正后的指标,以此将优先级指数采样法、分层采样法、随机采样法做对比分析,并以基于克里格插值的独立验证作为对比。优先级指数采样法得到的点集所携带的信息相较于分层采样点集和随机采样点集更接近于总样本点集。本研究的采样设计方法能够满足省级及以上区域采样需求,提高采样效率和质量,可为其他土壤采样方案的设计提供一定参考。为了了解离群样点的存在对研究对象的空间变异性及合理采样数的影响程度,本研究通过全局离群样点检测、LOF模型、LDOF模型和SLOF模型对研究区水动力参数数据集的检测和对比,在数据统计特征、空间变异性和合理采样数三个方面比较分析离群样点所产生的影响。结果表明,离群样点的属性比离群样点的数量对空间变异性及合理采样数影响更明显,其中局部离群样点和全局离群样点在影响对象上各有偏重;离群样点的剔除使得合理采样数有不同程度的降低,其插值效果明显优于原始样本集,其中SLOF模型的效果相对更好;模型对比的独立验证中,数值的模拟误差和趋势的模拟偏差都会对插值效果产生影响。对于空间采样所得的数据而言,特别是采样密度分布不均一的数据集,传统的离群样点检测方法无法满足检测需求,而现有的空间局部离群样点检测算法将空间属性与非空间属性剥离计算,k临近数无法充分体现空间属性的价值,同时,对用户预设初值的依懒性较大,并存在很强的边缘效应,无法得到较为满意的离群样点检测体验和检测结果。为此,本文提出了一种基于斜率的空间局部离群样点检测方法,充分利用空间属性与非空间属性提供的信息,对局部离群样点的捕捉更加敏锐,此外,该算法利用数据集固有的变程来代替传统的k临近数,并引入了k循环增减计算,降低了用户依赖性。在与现有的SLOF算法比较的结果来看,基于斜率的空间局部离群样点检测方法具有更高的精确度,能够更好的适应空间分布数据集特点,更好地完成的离群样点检测工作。土壤特性的优化采样策略及空间离群样点检测算法研究初步完成了在大尺度范围条件下从采样策略到数据预处理的基本工作,为土壤特性研究提供了与其特性相适应的采样策略及离群样点检测的方法,并为离群样点对空间数据集等方面的影响提供了一定的理论基础,为今后进一步的土壤特性研究提供了一定的条件。