论文部分内容阅读
随着数据库和信息技术的快速发展,人们面对的数据量以爆炸式的速度增长,为了更好的利用资源,从这些数据中获取有价值的信息,数据挖掘技术应运而生。目前,在数据挖掘领域的研究中,聚类分析是很重要的一支,许多有效的聚类分析算法被提了出来。其中,模糊C-均值(FCM)的理论基础相对完善,是应用的比较广泛的一种聚类算法。但是该算法过分依赖于初值,而且对噪音数据比较敏感。差分进化(DE)算法是一种模拟生物进化的随机搜索算法,其优势在于过程简单、控制参数少、易于实现,而且具有较强的全局收敛能力和鲁棒性。基于差分进化的模糊C-均值聚类(FCDE)算法就是将DE算法应用到FCM算法中,在一定程度上解决了FCM算法过分依赖于初值,对噪音数据敏感的问题。但是由于FCDE算法的变异和交叉操作的随机性,使得其收敛速度特别慢。因此,本文针对FCDE算法中存在的以上问题,对其进行了深入的研究。主要工作如下:1.针对DE算法交叉操作粒度过大的问题,本文引入了新的交叉算子,使得交叉对象由原来的样本数据改为样本数据中的维度,提高了解的精度;针对DE算法对变异缩放因子F和交叉概率因子CR敏感的问题,本文引入了自适应更新操作,使F和CR在整个算法的执行过程中,实时动态更新,而不是原来的常数,降低了DE算法对F和CR的敏感性。2.针对DE算法收敛过慢的问题,本文引入了新的变异算子,采用一种贪心策略,使DE算法更快向最优解收敛;为了防止其陷入局部最优,引入了突变机制,使DE算法最终能收敛至全局最优。最后本文将改进后的DE算法应用到聚类问题中,提出了一种改进的基于差分进化的模糊C-均值聚类算法-1(IFCDE-1)。3.同样,针对DE算法收敛过慢的问题,本文从另一个角度将FCDE算法和FCM算法结合起来,充分利用FCDE算法不依赖初值和FCM算法收敛速度快的优点,提出了另一种改进的基于差分进化的模糊C-均值聚类算法-2(IFCDE-2)。4.为了验证算法的有效性,本文采用了3组开源的真实数据集和2组自定义的数据集进行实验,实验结果表明本文提出的算法能够在保证精度的前提下提高收敛效率。