论文部分内容阅读
土壤系统分类的不断成熟为土壤类型自动化检索提供了理论基础,野外土壤描述与采样规范为土壤特征的语义规范提供了依据。中国土壤系统分类(Chinese Soil Taxonomy,CST)是以诊断层和诊断特性为基础的定量化分类体系。目前,基于土壤系统分类的土壤类型检索系统的研究已取得一定进展,但仍存在以下问题:1)系统忽略了分类规则(诊断对象及土壤类型的描述)与检索框架(推理过程)的耦合性对系统更新的影响;2)未考虑土壤信息的载体在空间结构上的差异,不利于土壤信息的管理;3)系统均是通过传统的条件嵌套语句表达土壤特征的范围匹配以及特征之间的逻辑关系,检索语言繁琐且冗余。为了改进上述问题,本文引入本体的概念,以土壤地理学和CST分类规则为理论基础,分析土壤实体的空间结构及其与CST对象(土壤类型与诊断对象)之间的相互关系,在此基础上建立关于土壤实体和CST对象的本体模型。为了规范化表达土壤特征,本文定义土壤特征模型,将土壤特征分为普通土壤特征与复合土壤特征两类。另外,本文定义相应的谓词逻辑作为接口来表达类型或模型之间的逻辑、隶属关系,采用Python语言实现本体模型的构建与谓词逻辑的表达,研发了从土纲到亚类级别的类型检索系统,并使用《中国土系志?湖北卷》的代表性单个土体数据进行测试。与其他已有的检索模型相比,基于本体的检索模型将土壤信息的载体区分为土壤层次(Horizon)、剖面(Profile)、单个土体(Pedon)和聚合土体(PolyPedon),使得土壤信息在空间上被科学地管理,降低了分类规则的复杂度。检索模型将规则与框架剥离开来,具有高内聚低耦合的特性,能更好地支撑检索体系的更新与扩展;此外,模型不再以土壤特征为检索对象,而是将其封装在土壤实体、诊断对象以及土壤类型中,将检索对象提升到范畴的高度,这种判别方式更符合人类的认知。上述研究过程发现,整个检索流程涉及到大量土壤特征的判别,对测试数据的完整性要求非常严格,且检索过程必须按照CST规定的顺序进行。笔者发现,CST中土壤类型名称的前缀词(包括亚纲和土类的首词,亚类的形容词)具有定量化的语义,并与诊断对象之间存在映射关系。因此,本文在后期的研究中尝试通过前缀词在分类体系中的分布特点来估计剖面的土壤类型,以CST中所有类型的前缀词为特征向量,以土壤类型为待估参数,建立关于土壤类型的似然函数,通过最大似然法估计剖面的最可能类型,并基于贝叶斯理论,给出剖面属于所有土壤类型的一组概率。本文从混淆矩阵与模糊相似度2个角度进行分类的不确定性评价。在混淆矩阵中通过生产者精度(Producer’s Accuracy,PA)、用户精度(User’s Accuracy,UA)、Hellden精度(Hellden’s Accuracy,HA)以及Short精度(Short’s Accuracy,SA)四种指标评价类型尺度下的分类误差,通过整体精度(Overall Accuracy,OA)与Kappa系数评价整体尺度下的分类误差。从模糊相似度的角度,通过比较参考样本与分类样本的模糊隶属度集合的模糊相似度(FA_S)评价类型尺度下的分类不确定性,通过整体模糊隶属度相似度(FOA_S)评价每个级别(土纲、亚纲、土类和亚类)的分类不确定性。根据分类结果与精度评价结果可知,该方法在4个级别的整体分类精度和Kappa系数均在0.7以上,整体模糊相似度在0.75以上,即参考样本与分类样本具有较高的一致性。