论文部分内容阅读
随着计算机和信息技术的飞速发展,数据库及其应用不断膨胀,信息采集和处理技术不断更新.当今世界已经处于信息爆炸时代,在这海量数据中如何有效地获取所需的信息和数据成为当今学者们的研究难点和关键.聚类分析作为无监督机器学习方法,已成为模式识别与数据挖掘的重要研究领域,并且广泛应用于统计分析、医疗卫生、生物信息处理、图像处理、社会科学等众多领域.聚类分析根据数据的表达式或结构特征把给定数据分到不同的类簇,使得同类的数据具有最大程度的相似性,非同类数据具有最大的相异性.本文主要研究并发现了一些聚类算法的不足之处并提出了相应的改善策略.主要内容概括如下:第一章回顾了聚类分析的相关背景知识,描述了本文的主要研究内容.第二章提出了一种具有空类分配技术的算法-EXK-Means聚类算法.该技术改善了XK-Means在迭代过程中因探索向量的干扰而产生空类的现象.XK-Means(eXploratory K-Means)是通过在聚类中心向量上添加探索性干扰向量,从而跳出局部最优并降低对初始聚类中心的敏感度.XK-Means每次迭代过程中,聚类中心上添加探索向量,从而每一步迭代使聚类中心有所变动.当变化幅度较大时,数据元素重新被K-Means分配后,原本属于该类的数据元素可能会都被分配到其它类,从而导致该中心所代表的类变为空类.在聚类数目指定的聚类过程中,如果聚类结果类数目少于指定K,就会影响算法的整体效率和性能.作为一种补救措施,我们采用EXK-Means聚类算法重新分配迭代过程中产生的空类.为了提高算法的全局搜索能力和加速算法的收敛速度,本章将EXK-Means与遗传机制相结合,形成GEXK-Means聚类算法并在理论上证明了算法的全局收敛性.第三章结合基本免疫遗传算法与克隆选择算法提出一种改进的免疫克隆聚类算法.该算法将免疫算法的免疫疫苗概念引入到基本的克隆选择算法中,弥补了传统克隆算法的不足,增强了抗体的多样性并提高了 K-Means的全局搜索能力.第四章将克隆选择算法与粒子群优化算法相结合提出改进的粒子群优化聚类算法.该算法首先把免疫疫苗概念引入到克隆选择算法中,然后再将免疫克隆技术与粒子群算法进行结合.该混合算法弥补了传统的克隆算法和粒子群算法的不足,增强了粒子的多样性并提高了粒子群K-Means聚类算法的全局寻优能力.第五章将第二章提出的空类分配技术引入到粒子群K-Means聚类算法中,改善了普通粒子群算法对数据进行聚类时产生类似于第二章提到的空类现象.最后本章将克隆选择算法与改进的粒子群K-Means聚类算法结合在一起形成ECPSOKM聚类算法,提高了粒子群K-Means算法的寻优能力.