论文部分内容阅读
当今世界正处在一个高度利用信息的变革时代,而推动这场巨大变革的动力是数据信息。随着数据信息获取手段的快速发展,数据信息正通过各种通讯及数据采集设备不断的收集起来,要使如此大量的数据真正成为一种资源,而不是成为数据包袱和垃圾,于是在大量数据中自动、快速、有效地发现知识、提取隐藏其中的模式的数据挖掘技术便应运而生,并得以蓬勃发展。 地理信息系统(GIS)作为地球空间数据管理的重要手段已得到广泛的认可和重视。地理信息系统的出现,激发了人们开发空间数据库管理系统的兴趣。在空间数据库平台和它的基本空间分析功能的基础上,根据空间数据的特点,将传统的数据挖掘技术引入GIS,成为空间数据挖掘技术。一个有效的空间数据挖掘过程一般有数据预处理、数据挖掘、模式评估和知识表示这几个步骤。 现今空间数据挖掘技术正处在发展阶段,虽然现在国内外有一些空间数据挖掘技术和方法被提出,但是这些挖掘技术不是对所有的空间数据的挖掘都是有效的,并不具备通用性,如现成的空间数据挖掘技术和方法就不能直接运用于对土壤属性分布规律的挖掘。因此,对不同的对象数据的挖掘应该使用不同的挖掘技术才是。同时空间数据挖掘技术中还有许多尚未解决的问题有待研究:如数据挖掘前的预处理技术方法单一;数据挖掘中的聚类算法在处理不确定性、随机性的数据中存在着不足;数据挖掘中对孤立点挖掘的认识及技术不够等等。本研究的目的主要是在分析空间数据的不确定性的基础上,借鉴传统的数据挖掘思想,提出适用于空间数据特点的挖掘算法。研究路线主要是按数据挖掘的过程进行的:(1)在消除噪音或不一致数据改进数据的质量后,研究有效的数据抽样方法,以获取能够较好地反映源数据特点的数据集,便于后期研究;(2)在分析孤立点与聚类的联系后,研究传统的数据挖掘算法,尤其是聚类及孤立点检测算法,并指出传统的算法在处理空间数据时存在的不足;(3)分析影响空间数据的不确定性的诸多因素,剖析常用的不确定性数据的分析方法存在的局限性,提出用云模型理论与数据场理论去分析空间数据、挖掘空间数据的思想;(4)深入研究云模型、数据场,并将空间数据融入其中,最终提出基于云理论与数据场的空间数据聚类算法及孤立点检测算法;(5)融入云模型与数据场的思想,改造现有的挖掘模式评估方法,提高评估精度;(6)融入云模型与数据场的思想,改造现有的可视化方法,达到可视化效果。取得如下研究结果。 1、空间数据的预处理 数据预处理主要包括数据清理、数据集成、数据变换和数据归约。数据清理是处理数据中的遗漏和清洗“脏”数据,找出孤立点并纠正数据的不一致性;数据集成是将多数据源中的数据进行合并处理,解决语义模糊性,整合成一致的数据存储;数据变换是将数据变换成