论文部分内容阅读
今天,我们已被各种数据所淹没。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,是当今数据库研究、开发和应用最活跃的分支之一。关联规则作为数据挖掘中的一项重要技术,具有广泛的应用领域。
随着空间技术的不断发展,对空间数据库中发现隐含知识需求日益增长,出现了基于空间数据库的数据挖掘技术——空间数据挖掘技术。本文研究的是关联规则分析技术在空间数据中的应用研究。
本文完成的工作如下:
(1)首先阐述了数据挖掘、关联规则和空间数据挖掘的基本理论和技术。分析了关联规则中经典的Apr iori算法和FP-growth算法,指出了算法中存在的问题以及研究的发展方向。
(2)综合现有的一些技术,提出了基于压缩FP-树和数组技术的关联规则挖掘算法(CFPmine算法),该算法-是采用了基于压缩FP-树的约束子树的挖掘方法,避免在挖掘过程中生成条件FP-树,减少内存占用;二是采用基于数组的技术,减少FP-树的遍历时间,提高算法的效率。实验结果表明:该算法是一个高效的频繁模式挖掘算法,其性能优于Apriori、EcIat和FP-growth算法,而需要的内存却少于FP-growth算法。
(3)通过详细分析基于映射位集合的MBSA算法的优缺点,针对其不适合大型空间数据挖掘及没有利用到频繁集的AptiOPi性质的缺点,提出了一种基于划分(partitioning)和aptiori性质位集合的两阶段关联规则挖掘算法TP-PB(Two Phase Association RuleAIgotithm based Partitioning and BitSet with Aptioriproperty)。通过性能对比,TP-PB挖掘效率更高,并且非常适合于大规模空间数据挖掘。由于使用了划分技术,TP-PB非常适合用于处理大规模空间数据,具有良好的可扩展性。我们把TP-PB算法应用到基于空间数据的精确农业中,得到了较好的结果。