论文部分内容阅读
空间数据挖掘是空间信息技术发展的必然结果,其产生主要来自两个方面的推动力。首先,由于数据挖掘研究领域的不断拓展,由最初的关系数据和事务数据挖掘,发展到对空间数据库的挖掘。其次,在地学领域,随着卫星和遥感技术的广泛应用,日益丰富的空间和非空间数据得到收集和存储,海量的地理数据在一定程度上已经超过了人们的处理能力,而传统的地学分析难以胜任从这些海量数据中提取和发现地学知识,正如John Naisbett所说,“我们已被信息所淹没,但是却正在忍受缺乏知识的煎熬”。因此,从空间数据库中自动地挖掘知识,寻找隐藏在空间数据库中不明确的、隐含的知识、空间关系或其它模式,即空间数据挖掘(Spatial Data Mining,SDM),变得越来越重要。但是,GIS空间数据库一般都具有海量特性并且往往分布存储,利用SDM技术从空间数据库或数据仓库中获取隐含的知识和信息,如果仅仅采用传统的集中式处理模式,则无论从数据处理的效率还是空间数据本身的安全性方面来说,都提出了很大的挑战。因此,分布式并行数据挖掘处理模式是目前研究的热点问题之一。而空间知识网格技术的研究与发展,为数据挖掘提供了良好的计算环境和应用前景。本文主要从空间数据挖掘中关联规则发现的串行算法入手,探讨了关联规则挖掘算法的并行化处理问题,并对网格技术应用于空间数据挖掘的相关体系结构进行了研究。本文的主要贡献在于:(1)对空间关联规则挖掘算法进行了系统研究。首先重点研究了Apriori算法、FP-growth算法及其对它们的改进,并将这两个算法分别在5个不同大小的数据集上进行了性能测试和对比;然后研究了空间统计学理论在空间数据挖掘领域的应用,并以湖南省2004年到2006年各市州的GDP增长率为例,成功的挖掘了各市州GDP增长率之间的空间关联关系;(2)研究了空间关联规则挖掘算法的并行化处理模式。为了适应GIS空间数据库海量且往往分布存储的特性,本文给出了分布式空间关联规则挖掘算法的一般结构,并基于Apriori算法介绍了4种并行计算方法:CD算法、CD-LGP算法、DD算法和HD算法,并对它们做了算法性能分析;(3)研究了基于网格技术的空间数据挖掘体系结构。在遵循OGSA体系结构的基础上,本文对面向服务的空间数据挖掘体系结构基本特征进行了分析,并对该体系结构中的数据访问服务、数据代理服务及空间数据挖掘服务的实现方式和流程做了深入的研究:(4)研究了网格环境下空间数据划分的一般策略和方法。通过基于GridSim的网格仿真实验,证实了在特定情形下该数据划分策略存在一个最优解,为网格代理在接收用户提交的任务后对整个任务进行自动化分解和在网格中进行优化调度提供了依据。