论文部分内容阅读
离群检测是数据挖掘研究的一个重要内容,其目的是消除噪音或发现潜在的、有意义的知识。空间离群检测是指根据空间对象的属性和空间关系的不同,检测出与大多数对象有明显区别的离群对象。但是,现有的空间离群检测算法大多是针对点对象,没有涉及到线、面对象,而且很少研究空间对象在拓扑关系上的相异性。为此,本文对基于拓扑关系的GML空间线对象离群检测算法进行了深入的研究,取得的成果如下:
(1)提出了两种基于相交关系的GML空间线对象离群检测算法——算法DOL_IR1与算法DOL_IR2。这两种算法定义了线对象基于相交关系的相异度,算法DOL_IR1将相异度作为两个线对象之间距离,利用DBSCAN算法检测离群的线对象;算法DOL_IR2以基于相交关系的相异度为准则对线对象进行聚类,根据每个簇的离群因子检测该簇是否离群。实验结果表明,算法DOL_IR1与DOL_IR2都能有效地检测出离群的线对象,而算法DOL_IR2的执行效率要高于算法DOL_IR1的效率。
(2)提出了两种基于相邻关系的GML空间线对象离群检测算法即算法DOL_AR1与算法DOL_AR2。两种算法都首先对线对象相邻关系的计算方法进行了分析,给出了线对象基于相邻关系的相异度的定义,算法DOL_AR1将基于相邻关系的相异度作为两个线对象之间的距离,利用DBSCAN算法检测出离群的线对象;算法DOL_AR2根据相异度对线对象进行聚类,再根据聚类形成的簇的离群因子来决定该簇是否离群。实验结果表明,这两种算法都能检测出离群的线对象,且算法DOL_AR2具有较高的效率。
(3)提出了两种基于相交和相邻关系的GML空间线对象离群检测算法DOL_IA_R1与DOL_IA_R2。算法DOL_IA_R1与DOL_IA_R2综合考虑了线对象的相交关系和相邻关系,定义了线对象基于相交和相邻关系的相异度。两种算法分别用DBSCAN算法与一次性聚类算法检测离群的线对象。实验结果表明,这两种算法都能够检测出基于相交和相邻关系离群的线对象,算法DOL_IA_R2具有较高的效率。