论文部分内容阅读
从大型数据集中发现有趣的,有用的且预先未知的知识的过程被称为数据挖掘。数据挖掘又称数据库中的知识发现,是数据库研究最活跃的领域之一。通过数据挖掘可以从大型数据集中提取可信、新颖、有效并易于理解的知识、规律或高层信息。这给人们在信息时代所积累的海量数据赋予了新的意义。随着数据挖掘技术的迅速发展,作为其重要组成部分,聚类分析和孤立点检测技术已经广泛应用于模式识别、数据分析、图象处理、市场研究等许多领域。聚类及孤立点检测算法研究已经成为数据挖掘研究领域中非常活跃的一个研究课题。聚类的边界点检测有时比聚类分析和孤立点检测更重要,但是聚类的边界点检测却不及聚类分析和孤立点检测受到重视。因此本论文重点对聚类的边界点检测算法进行了研究。论文首先介绍了数据挖掘、聚类分析、孤立点检测和聚类的边界点检测等基本理论以及几种主要的聚类分析算法、孤立点检测算法。本文详细介绍了一种典型的聚类的边界点算法BORDER,在实验的基础上讨论了BORDER算法的优缺点。针对BORDER算法时间复杂度高和精度不高的不足,本文提出了三种不同的聚类的边界点检测算法:噪声数据上的聚类边界点算法BOUND、改进的BOUND算法BRIM和基于引力的聚类边界点检测算法GREEN。并利用对象的反向K-近邻的性质,提出一种新的孤立点检测算法。在综合数据集和真实数据集上做了大量的实验来验证算法的有效性,并用不同规模的综合数据集来验证算法的响应时间。实验结果表明:本文提出的三种边界点检测算法的精度和执行效率均比BORDER算法高;本文提出的基于反向K-近邻的孤立点检测算法在保证精度的情况下,其执行效率高于典型的孤立点检测算法LOF。