论文部分内容阅读
伴随着信息技术的飞速发展,当今的生活、生产以及科研的各个领域都正在实现信息的数字化处理,由此产生了数量极其庞大的文本、图像、音频、视频等各种形式的数据。怎样从海量数据中准确高效的提取出隐含未知且有潜在价值的信息,是人们面临解决的重要课题。数据挖掘技术的诞生为这一问题的解决带来了许多行之有效的方法和工具,作为一种新兴的交叉科学的技术,数据挖掘包含多个热门的研究方向,其中聚类分析(简称为“聚类”)是应用最广泛最成熟的数据挖掘技术之一,它的主要功能是根据一定的规则把数据集划分成若干个不同的组,使得同一个组中的数据对象尽可能相似,不同组中的数据对象尽可能相异,数据对象间的相似度的计算是通过描述对象的属性来实现的。目前聚类已经被广泛的应用于数据的预处理过程,在机器学习、空间数据分析、模式识别、商业决策、图像处理、web文档分类和数据压缩等方面也有重要应用。根据构造思想和研究现状的不同,聚类算法大致可以分为以下几类:基于划分的算法、基于层次的算法、基于网格的算法、基于密度的算法、基于模型的算法。K-均值聚类算法是一种基于划分的算法中的经典算法,本文深入研究和分析了K-均值聚类算法的优缺点,同时还针对算法的聚类数目K值依赖用户指定、算法的聚类结果容易受初始中心值的选取影响的缺陷,对K-均值聚类算法进行了研究和改进。本文所做的主要工作包括:(1)介绍了数据挖掘的研究现状和聚类分析的研究背景和相关概念。(2)研究了K-均值聚类算法的基本思想和原理,并分析了K-均值聚类算法的优缺点,对现有的改进K-均值聚类算法的措施进行了分析比较,为得到最佳聚类数目而提出了一种K值的优化算法,实验结果表明算法成功改善了K-均值聚类算法对用户输入K值的依赖性问题。(3)针对K-均值聚类算法对初始聚类中心值的选取敏感并且容易陷入局部最优解的缺点,提出了将全局寻优能力较强的差分进化算法引入算法的思想,用交叉、变异、选择操作来取代聚类中心不断更新的过程。同时对标准差分进化算法进行改进,提出了基于改进的差分进化算法的K-均值聚类算法。最后通过实验验证了改进方案的有效性和可行性。