论文部分内容阅读
聚类分析是把数据对象或规则划分成若干个子集的过程,每个子集代表了一个簇,其目标是使得簇中的对象彼此的相似,而与其他簇中的对象尽可能的不相似,聚类分析已经广泛地应用到许多应用领域。聚类集成技术的出现提升了单一聚类算法的不足,在算法的精确度、鲁棒性、稳定性、并行化等方面有更大的优势。半监督聚类集成技术很好的利用了已有的先验知识进行聚类集成的指导,从而能够获得比聚类集成更为精确的聚类结果。近年来,随着聚类技术的不断发展,许多学者开始将群体智能优化算法引入到了聚类分析中,其根本策略是将聚类问题转化为优化问题,通过模拟自然界的某些群体智能行为然后进行启发式搜索,其最终目的是寻找到具有最优目标函数值的聚类划分。基于群体智能优化的算法有蚁群算法、粒子群算法、人工免疫算法、混合蛙跳算法、鱼群算法和蜂群算法等,它们在聚类分析领域得到了广泛的应用。本文借鉴果蝇优化算法的思想,提出一种基于群体智能的聚类分析算法,该算法更新每只果蝇的三维坐标至全局最优位置再进行随机搜索寻优,通过多次迭代以此找到最佳聚类中心,相比其他群体智能聚类算法,它的参数少,算法思想简洁易懂,实验证明本文提出的算法相比于其他对比算法有着较高精度和效率。聚类集成是集成学习的重要部分。它的目的是集成多个不同聚类算法或者单个聚类算法拥有不同的参数情况下得来多个聚类结果,从而得到更为精确的聚类结果。CHAMELEON作为一个层次聚类算法,能够发现不同形态以及大小的簇,且能够动态的决策合并这些簇。基于CHAMELEON的这些优点,本文提出了一种基于动态决策的聚类集成算法,并且给出了其无监督和半监督集成模型。其分为三个阶段,阶段一:通过相似度矩阵构造稀疏图;阶段二:划分这些图得到大量的子簇;阶段三:通过动态的合并这些子簇得到最终的聚类集成结果。实验也证明了该方法在稳定性和聚类集成结果上相比于其他已有的聚类集成算法有优势。