论文部分内容阅读
基于密度的聚类方法在聚类分析技术中占有很重要的地位,在金融、市场营销、信息检索、信息过滤、科学观测与工程等各个领域广泛应用,是聚类分析中的研究重点。本文对基于密度的聚类算法进行了研究,并以DBSCAN(Density-Based Spatial Clustering of Applications with Noise)为基础,提出了改进算法。基于密度网格聚类方法是基于密度聚类方法与基于网格聚类方法的融合,结合两种聚类方法的优点,本文提出了一种改进的基于网格的密度聚类方法。本文主要在以下几个方面展开了研究:(1)首先对数据挖掘技术以及聚类分析技术的研究与发展进行了综述,阐述了聚类分析的基本原理以及数据结构,详细介绍了常用的聚类分析技术,并选择性的介绍了数据预处理方法。(2)针对DBSCAN的参数敏感性以及对密度分布不均数据集难以获得较好聚类效果的情况,本文提出了一种基于区域比例的改进算法。算法使用点的区域分布来度量点的密度,并定义候选核心点来提高簇的搜索效率。算法中使用基于密度的离群点检测方法LOF(local outlier factor)来检测数据集中的离群点。(3)基于网格的密度聚类方法具有基于网格方法聚类时间独立于数据集大小的特性,本文提出了一种改进的基于网格的密度聚类算法。算法通过密度函数将数据映射到网格结构,使用门限处理对网格进行分割,在二值化网格上聚类密度连通区域。该方法不仅具有基于网格聚类方法在聚类时间上的优势,也能对任意形状数据集聚类。(4)基于通用入侵检测模型构建了一种基于密度聚类的入侵检测模型,并将基于区域比例的聚类方法应用于入侵知识库的训练。实验结果验证了基于区域比例的聚类算法在应用中的有效性。实验表明以DBSCAN为基础的基于区域比例的聚类算法,在使用新的密度度量函数和区域比例思想后,对密度分布不均数据集的聚类比DBSCAN有更好的聚类效果,参数鲁棒性也有提升,达到了预期的目的。基于网格的密度聚类算法能对任意形状的数据集聚类,并且聚类时间独立于数据集大小,是对基于密度聚类算法的很好补充。