论文部分内容阅读
为解决产地污染数据综合利用问题,开展产地污染分析与评估,特立此课题进行研究。本课题的研究目标是:对农产品产地污染监测结果及相关空间数据进行知识挖掘,建立一个产地污染综合知识挖掘系统。该系统由四部分组成:数据清洗系统,非空间谓词挖掘系统、空间谓词的提取系统,空间-非空间关联规则挖掘系统。本文采用属性清洗和重复数据清洗技术完成产地污染数据清洗工作。针对属性清洗,文中提出了统计分析清洗方法、聚类清洗方法、基于模式的清洗方法、关联规则清洗方法;针对重复记录的清洗,运用了DBSCAN聚类方法提取相似重复记录集,然后采用蚁群算法进行合并和删除重复记录,创造了一种新的数据清洗方法。本文将产地土壤污染非空间谓词的提取分为两部分,一是非空间背景知识的提取,二是产地污染原子命题集的提取。首先,采用了关系演算方式,以关系(元组、属性)建立笛卡尔积的形式获取非空间背景知识;然后,建立了一种产地污染预测与评估和原子命题集提取的新方法,即:利用PCA主成分对污染数据降维,采用RBF网络对产地污染状况进行评估预测,最后运用SWM相似权值法抽取规则的形式,提取原子命题集。本文建立了空间谓词提取新方法,引进了空间对象分层挖掘概念,改进了原有的空间谓词九交矩阵提取方法,以粗糙集理论创建了粗糙九交矩阵,并利用CART决策树完成空间谓词的提取,最后建立约束规则,对空间谓词进行归并,使得生成的分层谓词空间既精简又不丢失信息量,为后续关联规则挖掘奠定了基础。本文引进了SPADA算法来挖掘空间-非空间关联规则。在非空间谓词集和空间谓词集的基础上建立空间观察集,在分层的基础上以θ代换方式开展层内搜索和层间搜索,从而建立空间-非空间关联规则。同时,还建立了模式约束和关联规则约束,从而提高了搜索和剪枝速度。最后,本文建立了一个综合知识挖掘系统的实例。以湖北大冶的产地污染监测数据为依据,对数据清洗算法、土壤污染非空间谓词提取算法、空间谓词提取算法以及空间-非空间关联规则挖掘等进行了验证。验证结果表明,该系统挖掘出的产地污染知识较好的反映了当地产地污染现状。