论文部分内容阅读
传统土壤属性数据处理一般是以具体应用为导向,对单一行业及小规模数据进行处理,忽略数据本身的数学特征,存在数据处理过程繁琐、分析受专业限制、数据跨行业不共享等问题。数据挖掘技术则是基于数据本身数学特征,忽略数据本身的专业意义去探索、发现其内在价值的数据处理技术。本研究系统性地引入数据挖掘技术处理土壤属性数据,并将其处理方法与传统的土壤学方法进行比对以探索其关联性,可为传统土壤数据处理打通一条进行大规模数据处理、跨行业数据共享通道,为土壤学数据处理方法的改进及与大数据时代接轨提供理论依据。本研究的研究目标主要是通过对基于数据挖掘技术与基于传统土壤学数据处理方法的比对,探索两种方法所存在的关联关系。以广东省74个县市区176种土壤剖面样本为数据来源,开展数据挖掘技术在土壤属性数据处理方面应用研究,并得出以下研究结果:(1)构建了基于数据挖掘算法的土壤属性数据分析与处理模型,包括聚类法、ID3决策树法、灰色关联系数法、数据挖掘可视化展示工具法等。利用数据挖掘技术对土壤属性元数据进行清洗、整理、转换,将部分重复数据、空数据、明显不合理偏离值脏数据进行删除或修正处理,最终确定797条最终数据作为本次研究对象。通过研究发现了基于土壤属性本身天然数据特征的数据挖掘分类方法与基于土壤学学科传统分类(评价)方法的土壤属性数据分类结果之间存在紧密的关联关系。(2)基于土壤学方法的土纲分类与基于土壤属性数据本身数据特征的数据挖掘方法分类存在紧密关联关系。在粗略或非专业分类以及跨行业大数据应用领域可考虑应用基于数据特征的土纲分类作为土壤类别分类依据参考,以方便利用数据挖掘技术领域成果对海量土壤属性数据进行非土壤专业领域的分析处理。(3)利用数据挖掘方法对原综合指数法进行了模型修改和验证。根据在广东省各地市采集的土壤属性数据对广东省各地水稻土进行了粗略等级分类及评价。在评价过程中发现原评价方法的不足,运用数据挖掘方法提出新的综合指数法。分类评价方法为综合指数评分法,结果为:一等占6.78%,二等37.14%,三等55.96%,四等为0.13%。(4)利用数据挖掘技术的ID3算法对影响土壤评价传统各因子进行分析,构建了最大影响因子寻找模型。按影响因子大小排序:有机质含量>全氮>速效磷>碱解氮>速效钾>pH值。通过该方法,可快速地得出对土壤质量影响的影响因素排序并可计算出其量化指标,并根据量化指标计算出了用于土壤质量评价的评价因子权重。(5)构建和研究了土壤属性数据关联分析模型。用灰色关联方法对所采样土壤属性数据进行了关联分析,并根据关联因子计算结果进行关联度排序。计算出了17种土壤属性数据分别与土壤有机质含量的关联系数,排序结果为:全氮、全磷、全钾、碱解氮、有效磷、速效钾、阳离子交换、交换性钾、交换性钠、交换性钙、交换性镁、交换性盐基、盐基饱和度、全铁、游离铁、非晶铁、铁游离度。(6)利用数据挖掘工具tableau可视化展示技术,分别用条形图、线形图、饼图、散点图、盒须图等对土壤数据分析结果进行了可视化直观展示。