论文部分内容阅读
近年来数据挖掘引起了信息产业界的广泛关注,其主要原因是存在大量的可用数据,并且迫切需要将这些数据转换成有用的信息和知识。通过数据挖掘,可以将知识发现的研究成果应用于实际数据处理中,为科学决策提供支持。聚类分析是数据挖掘的一项基本任务,是一个无监督的学习过程,聚类的目标是在没有任何先验知识的前提下,将数据聚集成不同的簇,使得相同簇中的元素尽可能相似,不同簇中的元素差别尽可能大。通过聚类,人们能够识别密集的和稀疏的区域,因而发现全局的分布模式,以及数据属性之间有趣的相互关系。在聚类分析中,K-means算法可以说是应用较为广泛的一种算法,但它的一个致命弱点是对初始化非常敏感而容易陷入局部极小值,而遗传算法是一种通过模拟自然进化过程搜索最优解的方法,其显著特点是隐含并行性和对全局信息的有效利用能力,因此,借鉴K-means算法,用遗传算法来解决聚类问题,既能发挥遗传算法的全局寻优能力,又能兼顾K-means算法的局部搜索能力,从而更好地解决聚类问题。本文就是提出了新的混合遗传算法,并以此来解决聚类问题。本文对遗传算法和经典的聚类算法做了深刻地分析、研究,提出了一种改进的基于模拟退火机制的多种群并行遗传算法,利用该混合遗传算法解决聚类问题,并通过实验验证算法的有效性。主要工作包括:1.介绍分析了聚类算法以及遗传算法。介绍了数据挖掘的相关概念、任务、方法,然后介绍了聚类分析的概念、常见算法以及遗传算法的基本概念、研究现状等,并进行了相应的分析。2.提出了一种改进的基于模拟退火机制的多种群并行遗传算法。提出的混合遗传算法利用模拟退火遗传算法,并对其进行了改进(采用动态调节近邻子集大小的方式),再结合多种群并行遗传算法的思想,同时加入小生境技术,从而有效地克服基本遗传算法的早熟收敛等缺陷。3.将改进的基于模拟退火机制的多种群并行遗传算法用于聚类分析。借鉴了K-means算法,并采用基于聚类中心的浮点编码方式,同时考虑到聚类数目k的值通常在事前不能很好地确定,往往根据经验来定,所以本文分别提出了固定聚类数目k值的聚类算法以及可以动态确定恰当的聚类数目k值的相应算法,使得聚类算法具有更普遍的意义。4.测试本文提出算法的有效性。为了测试本文提出的聚类算法的性能,本文采用两组实验数据,分别针对固定聚类数目k的聚类算法以及动态确定聚类数目k的聚类算法进行实验,并与其它的聚类算法,即K-means算法以及基于遗传算法的聚类算法进行效果比较,实验结果显示本文算法有效地解决了聚类问题。由于人们面对的数据是海量的,所以要求聚类算法能够快速准确地解决实际问题。本