论文部分内容阅读
当今信息化时代,各领域产生的数据量急剧增大,需要进行有效地数据分析.聚类分析一方面能用作分类预处理,另一方面能用作数据挖掘,是机器学习中较快出现最新算法的领域之一,始终可以从某个角度设计新算法.现实世界中许多事物的分类界限尚不清楚,这种不明确的分类广泛存在于人们的理解和辨识过程中.模糊聚类分析是解决不分明边界划分问题的重要手段,它扩展了样本的隶属范围,给出了聚类划分的模糊性,使得聚类分析的结果更符合现实意义,因此模糊聚类成为聚类研究领域的热点之一.基于马氏距离的模糊聚类算法是使用马氏距离Mahalanobis代替FCM算法中的欧氏距离.马氏距离不受属性维度影响,解决了使用欧氏距离在处理属性相关的数据时,误分率增加的问题.由于基于马氏距离的模糊聚类算法被广泛使用,其优化问题值得进一步研究.本文针对基于马氏距离的模糊聚类算法对初始聚类中心敏感,收敛速度慢的问题,提出了一种新的初始化方法.首先,在一定范围的类别中,通过启发式搜索聚类中心,然后使用kmeans算法获得初始聚类中心.经过人工数据和标准数据的测试,结果表明在多维数据上,新的初始化方法能迅速搜索到较为合理的初始聚类中心.为了提高马氏距离模糊聚类算法的聚类精度,避免陷入局部最优解,实现聚类数自适应,本文构造了一种有效性指标的度量,结合了类中的紧致性、类之间的分离度以及类之间的清晰度.新的有效性指标含有马氏距离中的协方差因子,将数据集模糊划分与几何结构结合,可以有效指导聚类.在此基础之上,将新的初始化法与新的有效性指标结合到基于马氏距离的模糊聚类算法中,配合使用合并聚类中心方法,实现了簇数自适应,使得算法不需要给出簇的数量,并且在通过人工数据和标准数据的测试之后,结果表明,经过优化后的基于马氏距离的模糊聚类算法HDM-FCM比未经优化的基于马氏距离的模糊聚类算法M-FCM聚类精度高,起到了全局优化作用.最后,论文研究了模糊聚类算法的加权参数值对聚类结果的影响,通过理论分析与决策选取的方式得到了适用于新算法HDM-FCM的加权参数值.另外,本文从智能算法优化的角度出发,结合粒子群优化算法PSO,使得基于马氏距离的模糊聚类算法得到全局优化,并通过UCI数据集实验进行了验证,该算法解决了马氏距离模糊聚类对初始值敏感,易陷入局部最优解的缺陷.