论文部分内容阅读
例外挖掘是数据挖掘中的一个重要研究方向,它往往可以帮助人们发现一些真实、但又出乎意料的有用的知识。在数据挖掘的许多应用中,挖掘例外数据比挖掘正常数据具有更高的价值,对发现高质量的知识有更重要的意义。
空间数据是近年来一类快速发展的、广泛存在的、重要的复杂数据,对空间数据的存储、处理和挖掘越来越受到人们的广泛关注,因此,对空间数据进行分析具有重要意义。其中,针对空间数据的例外挖掘研究随着数据挖掘技术的发展显得日趋重要而有意义。本文的研究目的就是希望从空间数据集(库)中挖掘出与其他空间数据明显偏离的,不一致的数据——空间例外数据。本文主要内容由以下几部分组成:
首先,介绍数据挖掘的基本概念、数据挖掘技术的研究背景和发展现状,并详细介绍了空间数据挖掘的概念、特点和分类。然后对例外挖掘的基本概念、方法和各自的特点进行了讨论。
其次,在参考现有空间例外定义的基础上,通过一些具体的、现实中的例子来说明现有的空间例外的定义,针对这些定义存在的不足之处,提出了一种较为全面的空间例外定义,即把空间例外分为基于非空间属性和空间属性两类,并为不同类型的空间例外给出了相应的形式化定义。
第三,在分析了现有的空间例外挖掘模式的基础上,设计了符合定义的空间例外挖掘算法——基于最近邻优先的空间例外挖掘算法,并对算法的复杂性进行分析;提出了一种基于协方差和相关系数的多属性空间例外挖掘算法,实验证明算法可以挖掘出定义的空间例外数据。
最后,将提出的空间例外挖掘算法应用到“三江并流”空间数据中进行试验,验证了算法的正确性和有效性,并将算法与相关文献提出的属性加权算法进行正确性和有效性的比较。