论文部分内容阅读
聚类分析是机器学习中的重要研究方向之一,相对于监督学习和半监督学习,聚类能够根据数据集本身的结构特性将样本归类,并能够发掘数据集样本间隐含的信息,在数字化和信息化的当今具有重要的研究价值和广阔的应用范围。聚类分析相关研究主要包括数据预处理、聚类算法和聚类有效性指标等方面。聚类分析研究发展至今,已有许多学者针对各个研究方向和不同应用场合提出了各种算法,不同算法具有各自的优势,同时也存在各自尚待解决的问题。在数据约减算法方面,目前常用的样例约减算法无法较好地反映数据集的结构特性,或者存在依赖使用者经验的参数;聚类算法方面,现有的许多算法通常也存在需要人为确定的参数,无法实现完全非监督的聚类过程;聚类有效性指标方面,目前被提出的指标大都针对特定的聚类算法,对算法的普适性不强,并对应用数据集对象有所限制。本文在对现有算法进行研究分析的基础上,对以上三个方面各提出了新的或改进的算法,主要研究成果如下:首先,针对目前的数据约减算法不能较好地反映数据集本身结构特性的问题,提出基于二分密度的约减算法,该算法能够在没有参数的条件下,实现对数据集的样例约减,达到去除噪声、减少样本量的同时,保留数据集本身结构特性的目的。其次,针对密度峰值聚类算法需要人为确定截断半径值的问题,提出最佳密度半径的密度峰值聚类算法。该算法定义了新的密度分辨率的概念,在密度分辨率达到最大时的截断半径即为使得密度峰值聚类算法聚类结果最好的截断半径值,在保留原算法高效、可聚任意形状类的优点的同时,实现自适应确定截断半径值。采用实验验证并对算法的时间复杂度和空间复杂度进行了分析。最后,针对现有的有效性指标对应用数据集的结构特性有所限制的问题,提出基于双统计量的聚类有效性指标。该指标创新性地将边界点应用于聚类有效性判别,结合改进的Gap指标,能够实现对不同特性数据集的最佳类数判定,并能够不依赖于聚类算法实现聚类结果评价。对以上提出的算法均采用不同特性的人工数据集和UCI公共测试平台的真实数据集进行验证。