论文部分内容阅读
现有的GIS系统一般具有强大的空间数据管理和空间分析功能,但缺乏知识的表达、获取和应用机制,已不能满足挖掘大规模空间数据库的要求。空间数据挖掘和知识发现技术可以弥补这一不足。数据挖掘技术中的聚类分析也得到了不断的发展,特别是随着各种数据源的大量涌现,聚类分析越来越受到重视,对聚类的研究已经成为数据挖掘领域中一个非常活跃的研究课题。
空间聚类是空间数据挖掘的重要方法。已经有多种用于空间数据库挖掘的聚类算法,CURE就是一个典型的代表。本文在介绍了相关空间聚类算法以后,深入分析了层次聚类和CURE空间聚类算法。针对CURE在识别特殊形状子类和运行效率等方面的不足,对CURE进行了如下改进:为了能识别特殊形状的类,新方法仍用多点表示一个类,但舍弃了原来的代表点收缩过程;在CURE对原始数据进行随机采样和分区聚类的基础上,增加了划分网格一步,能降低噪声影响、缩小初始类个数,加快聚类过程。文中分析表明,可用一个指数函数来表示一个类的最近距分布规律,基于此,本文提出了一种新的子类自动分离的方法,聚类个数不用预先给定;对一组二维数据的测试表明,改进的CURE算法能识别大多数分布良好的特殊形状类,速度上优于原算法。主要完成内容有:1、综述了空间聚类算法,分析了其现状和发展方向;
2、深入分析了层次聚类和CURE算法,指出了算法的局限性;
3、针对算法局限性,提出了子类自动分离的方法,增加了划分网格的步骤;
4、利用实际例子,将本文算法与CURE算法进行了比较,验证了本文算法的有效性和优越性。