论文部分内容阅读
随着人类社会的发展与科学技术的进步,在实际问题中经常遇到分类的问题。聚类是一个古老的问题,它伴随着人类社会的产生和发展而不断深化,人类要认识世界就必须区别不同的事物并认识事物间的相似性,而每个概念的最初形成无不借助于事物的聚类分析。因此,聚类分析的研究不仅具有重要的理论意义,也具有重要的工程应用价值和人文价值。
聚类算法经过多年发展,取得了丰硕的成果,新算法的提出也层出不穷,其中基于目标函数的硬c.均值聚类(HCM)和模糊c-均值聚类(FCM)可以说是应用更为广泛的算法,而HCM是FCM的一个特例。但是这两个算法的一个致命弱点就是对初始化非常敏感且容易陷入局部极小值,而粒子群算法是一种基于群体的全局优化方法,它的主要优点是简单、鲁棒性强和适合并行处理,因此把粒子群算法与HCM结合起来,本文提出了基于粒子群算法的硬c-均值聚类方法。本文还运用MATLAB进行了仿真实验,结果表明,基于粒子群算法的硬c-均值聚类方法能有效克服上述HCM缺点,使分类结果更符合实际。
聚类分析的最主要的缺陷是,不管所给的数据集的结构如何,它总能将数据集进行分类。它的另一明显不足是事先很难确定数据集的分类数。对聚类有效性问题的有效解决将会对聚类分析的成功应用产生十分深远的影响。本文对基于FCM的有效性函数进行了研究,分析了一些主要的聚类有效性函数的性能,指出了它们普遍存在的问题。
基于FCM的聚类有效性算法很不稳定,本文对该算法进行了改进。首先c的取值从CMAX开始,因为随机选取的类中心数目比较多,这样偏离真正的类中心的可能性很少。然后提出了一个合并函数,将该函数值最小的类中心删除,再重新执行FCM算法计算类中心,使得(c—1)类的类中心依赖于c类的类中心。对常用来测试聚类有效性函数的数据集进行了测试,将两种聚类有效性算法进行了比较,结果表明:改进的聚类有效性算法是稳定的,且当数据集较大时,改进的聚类有效性算法的运算速度比旧的算法要快。