论文部分内容阅读
聚类分析和离群点检测都是数据挖掘邻域的主要研究方向之一。随着信息技术在科学研究、生产管理及商务应用中的日益普及,聚类分析和离群点检测在大量日常数据的挖掘分析中的重要地位也日渐显现。本文通过对空间数据间的相邻关系的深入研究,提出利用数据空间内局部密度不同的特性,进行聚类分析和离群点检测的算法,主要贡献如下:
1.提出了一种新颖的基于相邻关系的聚类算法——NBC算法。与传统的基于密度的聚类算法使用全局密度门限值不同,该算法引入邻基密度系数的概念,对每个数据对象周围的相对局部密度进行考察和度量。和以往的算法相比,NBC算法能够更有效地识别出同一数据集中任意形状、不同密度的簇,很好地解决了使以往算法失效的局部密度不均匀问题和多粒度问题。
2.提出了一种高效的基于相邻关系的离群点检测算法——NOF算法。该算法充分利用数据对象之间的相邻关系来度量数据对象的孤立程度。与基于距离的方法相比,它解决了局部离群点不能被准确识别的问题;与基于密度的方法相比,它更简练、直观和有效,并在一些LOF算法失效的数据集上依然能准确识别离群点。在大数据集和高维数据集的应用中,NOF算法在有比较高的效率和比较好的可扩展性。