论文部分内容阅读
聚类分析算法是一种经典的无监督机器学习算法。Literal Fuzzy C-Means(LFCM)聚类分析算法作为一种性能比较优越的划分式聚类分析算法,采用了模糊隶属度矩阵来确定每个输入样本隶属于某个聚类中心的程度,并根据新旧聚类中心的差值是否小于所设定的阈值来决定是否停止迭代。虽然此类算法结构简单、便于理解,同时对少量数据集聚类时速度比较快,但是也存在着聚类准确率偏低的缺陷。另外,近年来许多行业应用系统数据逐渐呈现非平衡数据集特性,但已有LFCM算法用于非平衡数据集聚类分析时,存在聚类效果不理想的缺陷,为后续数据分析带来了隐患,因此,如何提高聚类算法用于非平衡数据集分析的效果也是近年的一个研究热点。熵权法作为一种聚类分析方法,可通过计算各个属性的信息熵,以得出各个属性的混乱程度,并根据信息熵来计算得到各属性的权重值,以实现对数据的聚类分析功能。本文将熵权法应用于所选的UCI数据集完成聚类实验。结果表明:相对于LFCM算法,熵权法的平均聚类准确率提高了8.9%,说明了熵权法相对于LFCM算法有提高聚类准确率的作用。但是,熵权法并没有考虑每次聚类结束之后数据的混乱程度,使得聚类效果还不够完善。为此,本文提出了一种基于迭代信息熵权的改进LFCM算法,该算法在熵权法的基础上进一步进行改进。算法的改进思路为:(1)输入样本结合隶属度函数,求得数据矩阵,根据该数据矩阵进而求取新的信息熵和权重;(2)把新旧权重的差值是否小于所设定的阈值作为迭代停止条件。随后,将本文的改进算法应用于八组所选的UCI数据集完成聚类实验,以验证所提出算法的聚类性能。实验结果表明:相对于LFCM算法,本文提出的基于迭代信息熵权的LFCM算法的平均聚类准确率提高了10.2%;相对于熵权法,本文提出的基于迭代信息熵权的LFCM算法的平均聚类准确率提高了1.3%。由此得出结论,本文提出的基于迭代信息熵权的改进LFCM算法相比于LFCM算法和熵权法,均可有效提高聚类准确率。最后,进一步将本文提出的基于迭代信息熵权的改进LFCM算法应用于非平衡数据集进行研究,以验证其对非平衡数据集进行聚类分析的性能。实验结果表明:相对于LFCM算法,本文提出的基于迭代信息熵权的改进LFCM算法的平均聚类准确率、类内紧凑性和类间间隔性分别提高了7.9%、0.2282和0.962;相对于熵权法,本文提出的基于迭代信息熵权的改进LFCM算法的平均聚类准确率、类内紧凑性和类间间隔性分别提高了0.6%、0.2899和0.524。表明了本文提出的基于迭代信息熵权的改进LFCM算法相比于LFCM算法和熵权法,在对非平衡数据集进行聚类分析时,可以有效地提高其聚类准确率、类内紧凑性和类间间隔性,改善聚类效果。