论文部分内容阅读
随着网络和信息技术的迅速发展,如何从海量数据中提炼出有效的信息,成为众多学者研究的热点之一,数据挖掘就在这一背景下应运而生。聚类分析作为数据挖掘中非常重要的组成部分,对不同类型的海量数据集进行归类划分,因此被广泛地应用于多个领域。本文通过分析研究传统聚类算法,针对其存在的一些不足,结合群智能算法的优化优势,分别提出了采用群智能中的人工萤火虫(glowworm swarm optimization,GSO)的聚类算法和细菌觅食(bacterial foraging optimization algorithm,BFO)优化聚类算法,重点研究工作如下:(1)针对传统的K-medoids聚类算法受随机设定的初始值影响明显、算法稳定性和准确度欠佳、易收敛于非全局最优值等缺陷和不足。本文采用流形距离代替欧式距离作为聚类算法的度量方法,并利用GSO优化初始聚类中心,提出了一种基于GSO的K-medoids 算法(K-medoids clustering algorithm based on glowworm swarm optimization,GSO-medoids)。本优化算法GSO-medoids充分利用群智能GSO的稳定性和灵活性较好等优点,克服了传统算法只能够分析球形数据、聚类效果不佳等缺陷。实验表明,GSO-medoids算法有较高的准确率和较好的鲁棒性。(2)针对传统的K-medoids聚类算法受随机初始值影响明显、处理高维数据时聚类效果欠佳等缺陷,本文基于粒子和BFO提出了一种融合BFO的K-medoids算法(K-medoids clustering algorithm based on bacterial foraging optimization algorithm,,BFO-medoids)。改进后的BFO-medoids算法充分利用了群智能BFO的搜索能力强且具有全局寻优能力更强等优点,在发挥传统K-medoids算法优势的基础上,明显的提高了算法的聚类性能。试验表明,BFO-medoids算法具有较高的准确率和稳定性,而且适用于维数较高、数目较多的数据集。