论文部分内容阅读
空间数据挖掘就是从空间数据库中抽取隐含的、以前未知、潜在有用的知识的过程,其应用涉及到国民经济与国防军事的各个方面,如地理信息系统 GIS、气象领域、远程遥感、交通控制、城市规划、环境研究、地理经济、军事战略评估等。因此空间数据挖掘是一个很有发展前景的领域,也是目前的研究热点,而以人工智能技术为基础的聚类、分类算法为空间数据挖掘提供了新的支撑技术。 正是在这种背景下对空间数据挖掘的相关关键技术进行研究。针对 DENCLUE(DENsity-based CLUstEring)算法的不足,提出改进的空间聚类算法 IDENCLUE;提出了基于改进的径向基函数神经网 IRBFNN 的空间数据分类算法;研究了空间数据挖掘中的相似性连接和 k 近邻查询;研究了基于 DM3_SDB 的空间数据挖掘原型系统DMSDM。 聚类是人类认知活动的一个重要手段。聚类分析方法按一定的距离或相似性测度将数据分成若干不同的组,由此发现整个数据集合的分布、结构与模式。聚类对象的相似性度量对聚类结果的影响很大,因而研究了聚类中的相似性度量问题,提出了广义距离概念。由于聚类是一种无监督分类法,对数据分析人员的相关领域知识要求很少,因而聚类已经成为空间数据挖掘的重要方法之一。其中,基于密度的聚类根据空间密度的差别,把具有相似密度的点作为聚类,是空间数据聚类常用的、行之有效的方法。而 DENCLUE 算法是一种泛化的基于核密度估计的聚类算法,具有支持大数据集、支持任意形状聚类、良好的抗噪声性能和满足高维数据等优良特性,还可以有效揭示数据分布的内在层次结构。不足之处是算法的参数依靠经验确定,选取困难,而合适的参数对聚类结果影响又很大,另外,算法没有充分利用高密度网格,因而算法的执行效率不高。改进的空间聚类算法 IDENCLUE 采用了基于密度熵的参数优化估计方法,通过预先给高密度网格中的点设置类标签,利用平均密度和密度的关系,在不影响精度的前提下将某些网格当成一个数据点来计算,降低了算法复杂度,提高了执行速度,有效改进了 DENCLUE 算法的不足。试验表明,改进的算法聚类结果更优,执行效率显著提高。 I<WP=4>分类在数据挖掘中是一项非常重要的方法。神经网络由于其学习和适应、自组织、函数逼近和大规模并行处理等能力,使得它广泛应用于模式识别、信号处理、系统辨识等方面,并且已经成功解决了许多应用领域的分类问题,因此神经网络十分适合于空间数据分类领域。然而因为神经网络把决策分类等知识分布式地存在连接权中,因而被许多人指责为一“黑合子”结构,难以理解其解释和决策过程,因而从神经网络中提取规则将是十分有意义的工作。提出了基于改进的径向基函数神经网 IRBFBNN的空间数据分类算法,在该模型中学习样本可以随时加入,学习算法也很快收敛。该分类模型的另一特色是,集神经网络,模糊集,和遗传算法的优点,利用基于离散求和层输出值的方法抽取隐含在神经网络中的规则,最终得到的分类规则是易于被人理解的模糊 if-then 规则。在这个系统中,首先对输入的数据作预处理,输入的连续属性的数据被模糊化,离散数据被重新编码,然后用改进的径向基函数神经网 IRBFBNN训练处理后的数据,再用基于离散求和层输出值的方法抽取隐含在神经网络中的规则,最后利用遗传算法来裁减比较弱的规则。实验表明该方法较传统的决策树分类方法有一定的优势。 相似性连接算法的对空间数据挖掘具有重要意义, k 近邻查询也是空间分析、空间数据挖掘以及地理信息系统等尤为关心的问题。对相似性连接处理来说,其度量运算也是不可忽略的费时操作,通过研究矩形在某一维相交的概率,提出了基于概率的优化维顺序的代价模型 ODOBP;通过分析基于 R-树的空间连接算法 RSJ,指出其算法的优化方法,并从理论上分析了优化的效果;通过对代价模型 ODOBP 和空间连接算法 RSJ 的研究,进而得到基于 R-树的空间相似性连接算法 RSSJ,并通过实验验证了算法 RSSJ 的优良性能;通过给出两个新的查询剪枝策略,提出了基于 R-树的空间k 近邻查询算法 IKNN。 讨论了空间数据挖掘系统设计的多方面问题,分析了 DM3 数据库的空间扩展功能,给出了 DM3 的空间扩展系统 DM3_SDB 的设计和实现;并着重讨论了基于DM3_SDB 的空间数据挖掘系统原型 DMSDM 的设计目标、设计原则、系统组成与结构、各个主要组成部分的设计,实现方案以及主要特色。