论文部分内容阅读
近十几年来,随着计算机技术、通信技术、网络技术的迅速发展与广泛应用,企业面临着日益增多的业务数据,一方面,这些丰富的数据资源为企业提供能带来商业利润的决策信息;另一方面,企业生产过程的科学研究以大量的数据为基础,需要通过一定的方法和手段进行分析、处理,可以实现生产过程的过程辨识、故障诊断和控制决策等工作。因此,数据挖掘作为一种从大量的、复杂的数据中提取有用信息的技术手段,引起了学术界和工业界的广泛关注。混合蛙跳算法是一种模拟青蛙群智能搜索行为的群体协同搜索算法。由于其控制参数少、易于实现、编程简单等优点,已被越来越多的学者所关注。模糊C-均值聚类(FCM)和核模糊C-均值聚类(KFCM)算法虽然已被应用于模式识别、图像处理等众多领域中,但仍存在一些缺陷。本文针对FCM算法存在对初始值敏感和易陷入局部极小值的缺点,提出了一种基于混合蛙跳的模糊C-均值聚类算法(SFLA-FCM)。核模糊C-均值聚类(KFCM)算法在一定程度上克服了对数据形状分布的依赖,但仍存在对初始值敏感、易陷入局部极小值的缺点。为此,本文提出一种基于混合蛙跳的核模糊C-均值聚类算法(SFLA-KFCM)。用SFLA优化KFCM算法,对于聚类数较少的数据集获得了理想的结果。但在聚类数较大和维数较高时,聚类效果较差,为此提出首先将自适应惯性权重引入混合蛙跳算法的更新策略中,再用改进后的混合蛙跳算法求得最优解作为KFCM算法的初始聚类中心,然后利用KFCM算法优化初始聚类中心,最后求得全局最优解,从而有效克服了KFCM算法的缺点,更适合高维、聚类数较多的数据集。用SFLA优化FCM算法,对于聚类数较少、维数较低的数据集获得了理想的聚类结果。但在聚类数较大和维数较高时,聚类效果较差,从而提出两种改进的SFLA算法。第一种,先将线性递减的惯性权重引入蛙跳算法的更新策略中,并按照一定的概率选择适应度值较优的青蛙代替较差青蛙,并对每只青蛙个体以不同的概率变异。第二种,先用混沌的Tent序列初始化青蛙群体以增强群体的多样性,提高初始解的质量;再根据每只青蛙的群体适应度方差值选取不同的变异概率进行变异。然后分别用改进后的蛙跳算法求得最优解作为FCM算法的初始聚类中心,然后利用FCM优化初始聚类中心,最后求得全局最优解,从而有效克服了FCM算法的缺点。