论文部分内容阅读
聚类算法分析是机器学习领域中的重要分支之一,随着空间聚类研究的发展与深入,其衍生出的模糊聚类更能客观地反映世界。模糊C-均值(FCM)算法是一种基于划分的模糊聚类算法,其过程具有无监督性、思想简单且容易实现,已逐渐成为聚类分析中的研究热点方向之一。然而,模糊C-均值算法过度依赖初始聚类中心的选择,而且容易受到孤立点和噪声点的影响,导致聚类结果易陷入局部最优,此外,也通常存在无法确定最佳聚类数目的缺陷。因此,全局模糊聚类算法研究成为一个重要课题,该算法的主要思想是将c个簇的聚类过程转变成一系列子聚类过程,使得聚类结果考虑到数据的全局分布,跳出局部最优,在聚类分析研究中发挥了重要作用。本文通过对全局模糊聚类思想过程的原理进行系统分析,发现现有相关算法仍然存在公式复杂导致计算负担较大,易受噪声点、孤立点的影响,初始簇中心难以确定以及最佳聚类数目不可预知等问题,基于该一系列不足,本文从以下两方面着手,对算法进行研究与探讨,使其在使用过程中更具备现实意义:一方面,针对现有全局模糊聚类算法的计算量、鲁棒性、初始中心的问题,提出基于一种新的度量(AM)的快速全局中心模糊聚类算法,首先,鉴于聚类中心往往处于密集度较高的区域,本文采取密集度的思想选取第一个初始中心点,即提出利用k距离圆比(DKC)的思想寻找一个样本点分布密集的区域,并将DKC值较大的数据点从备选聚类中心中删除,减少计算量,同时,DKC值公式相对简单,单次求和进一步降低计算负担;然后,在算法中引入AM度量取代欧氏距离度量,根据AM度量单调缓慢递增且有界的特点来增强算法的鲁棒性,降低孤立点对聚类效果的影响;最后,结合DKC值与AM度量的优势,提出了一个新的自定义函数来确定下一个聚类的最佳初始中心点,该函数能够快速准确地选择一个周围样本分布相对密集,且距离现有聚类中心较远的样本点来做为下一个最佳初始中心点,从而避免了噪声点的影响,在一定程度上提升了聚类的精确度。另一方面,针对聚类数目不可预知的不足,对已有模糊聚类有效性指标进行了系统的分析与改进。对模糊聚类算法所得结果进行衡量时,不仅需要考虑每一数据点的模糊隶属度以及对其类中心点的距离等因素之外,而且需要关注数据集的整体分布特征。因此,本文结合改进的紧凑性度量、分离性度量以及划分系数,提出了一个新的模糊聚类指标。其中,紧凑性度量是通过计算类内误差反映类内数据点的紧凑程度;分离性度量是通过计算两两模糊类之间的差异性来反映聚类之间的分散程度;划分系数是通过计算隶属度来反映聚类划分结果的清晰程度。显然,当数据集的紧凑度越小、分离度越大、且划分系数越清晰时聚类效果越好,进而较为准地确定待聚类数据集的聚类数目,结合本文提出的模糊聚类算法,实现了真正的无监督性质。实验结果证明该有效性指标在可靠性与鲁棒性上都具有良好的性能。