论文部分内容阅读
GIS数据库中含有海量、复杂的数据和信息,其中隐含着许多有价值的知识,而传统的GIS系统主要局限于实现数据的录入、查询、统计等功能,无法有效地发现数据中存在的关系和规则,数据挖掘技术可以对GIS数据进行更高层次地分析,发现其中隐含的知识。因此从空间数据库中进行知识发现即空间数据挖掘,己成为数据挖掘领域中一个重要的研究方向。 聚类是根据某个相似性准则对模式进行分组达到组内相似性最大、组间差异行最大以发现有意义的结构特征的过程。在空间数据挖掘的技术体系中,聚类分析由于其具有探索性数据分析方法的内在特质,被认为是从空间数据库中发现知识的一种主要方法并取得了相当大的进展。然而,空间数据本身呈现出高度复杂的特征,数据挖掘又为聚类分析带来了大量亟待解决的新课题。为此,空间聚类分析技术值得进一步探索的空间还很广阔。 K-means方法是一种常用的空间聚类算法。它是基于划分的一种聚类算法,该算法采用启发式方法,实现简单,收敛速度快。但是该算法存在以下两个缺陷:(1)对初值敏感;(2)该算法常常陷入到局部最优。遗传算法是一种全局搜索算法,它仿效了遗传学中生物从低级到高级的进化过程,以概率1收敛到全局最优,但是收敛速度较慢。本文综合遗传算法的全局收敛性和K-means方法收敛速度快的优点,并针对聚类问题的具体特点,提出了一种E-GAC算法,提高了遗传算法的搜索效率,同时也改善了聚类结果。 本文提出了一个改进的关联规则挖掘算法,用来对聚类结果进行挖掘,输出规则,供决策支持提供参考。该算法基于Apriori思想,只需扫描一遍数据库,并优化了连接操作,提高了效率。同时,本文提出了一种迭代算法检测空间离群点,该算法通过多次迭代检测离群点,并在迭代过程中对离群点的属性值进行修正,可以提高检测结果的正确性,并能检测局部离群点。 最后,本文给出了一个基于GIS和数据挖掘的CRM系统,并将前述研究的算法集成于其中,弥补了GIS在分析功能上的薄弱,同时又发挥了GIS在图形显示方面的强大功能,为数据挖掘和GIS整合找到了一种可行的解决方法。