一种改进的模糊核聚类算法

来源 :网友世界 | 被引量 : 0次 | 上传用户:wangli7313981
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
   【摘 要】为解决经典模糊聚类算法对噪声数据敏感、样本分布不平衡和高维数据集聚类效果不理想的问题。针对此不足,可以通过Mercer核把原来的数据空间映射到特征空间,并为特征空间的每个向量分配一个动态权值,从而在经典模糊聚类算法的基础上得到特征空间内的全新的目标函数。在基于核函数的模糊聚类算法中,核参数的选择是至关重要的。因此,提出了一个简单有效地决定核参数的方法。理论分析和实验结果表明,相对于其它经典模糊聚类算法,新算法具有更好的健壮性和聚类效果。
  【关键词】模糊聚类;权值;核函数;核参数;特征空间
  
  1.引言
  聚类分析研究已经有几十年的历史,它的重要性及与其他研究方向的交叉特性均已得到人们的肯定。其中的模糊聚类是数据挖掘、模式识别等研究方向的重要研究内容之一,在识别数据的内在结构方面具有极其重要的作用。模糊聚类主要应用于模式识别中的语音识别、字符识别等,机器学习中的聚类算法应用于图像分割和机器视觉,图像处理中模糊聚类用于数据压缩和信息检索。模糊聚类的另一个主要应用是数据挖掘(多关系数据挖掘)、时空数据库应用(GIS等)、序列和异类数据分析等。此外,模糊聚类还应用于统计科学。值得一提的是,聚类分析对生物学、心理学、考古学、地质学、地理学以及市场营销等研究也都有重要作用[1-4]。
  在聚类分析过程中,需要根据数据点之间的相似或相异程度,对数据点进行区分和分类。因此,为数据集选择合适的距离度量来评价数据点之间的相似或相异程度,对聚类分析的效果至关重要。在此过程中,选用不同的距离度量,其效果相去甚远。然而在实际研究中,由于研究人员缺乏对数据集特点充分的认识,所以很难为数据集选择合适的距离度量。在众多的距离度量中,欧氏距离最为常用。但是,欧氏距离对噪声比较敏感[5]。此外,欧氏距离仅适用于特征空间中超球结构的数据集,对超立方体结构、超椭球结构的数据集效果不太理想[6]。因此,比如应用最广泛的有Dunn于1974年提出并由Bezdek加以推广的模糊C-均值(fuzzy C-means,简称FCM)算法就有上述不足。为了克服对噪声数据敏感的缺点,R.Krishnapuram和J.Keller[7]把聚类问题引入到可能性理论中,提出了PCM算法,PCM算法使噪声数据具有很小的隶属度值。然而,经过实践证明在高维数据空间进行聚类时,其性能将急剧下降,产生严重的类中心重叠问题[2]。模糊核聚类方法在性能上比经典聚类算法有很大改进,它通过非线性映射能够较好地分辨,提取并放大有用的特征,从而实现更为精准的聚类,算法收敛速度也较快[11]。本文正是提出一种新的基于核函数的模糊聚类算法,首先通过Mercer核函数,把数据样本空间映射到特征空间,再对特征空间的每一个向量分配一个动态的权值,从而在FCM模糊聚类的基础上得到一个新的包括向量权值的目标函数,在特征空间中,通过对该目标函数的优化,最终得到了各个数据点的权值。选择合适的核函数参数是一个极其关键的问题,因为它能够极大地影响基于核函数的模糊聚类算法的聚类结果[3]。本文中核参数的选择将通过优化目标函数的方式得到[8]。实验结果也验证了改算法的有效性和可行性。
  本文结构如下:第2部分,对经典算法进行回顾;第3部分,提出新的模糊核聚类目标函数并给出相应算法;第4部分,给出实验结果与分析。第5部分,对本文进行了总结与展望。
  2.经典模糊聚类算法
  设数据集为样本空间中n个样本的一个有限数据集,称为样本的特征矢量,为特征矢量的第k个特征上的赋值。所谓聚类分析就是要在X上产生C个划分。
  2.1 FCM算法简介
  其目标函数定义如下:
   并且需要满足下式:
   模糊聚类通过迭代最优化目标函数来实现,这是一个进行优化的过程。其中模糊隶属度和聚类中心分别用以下公式获得:
  
  这个优化过程从随机指定一个聚类中心开始,通过搜索目标函数的最小点,不断调整聚类中心和每一个样本点的模糊隶属度,最终在的局部最小点或鞍状点收敛,到达确定样本类别的过程。但是FCM算法的一个不足之处就是对噪声数据敏感。
  2.2 PCM算法简介
  针对FCM的算法的不足,R.Krishnapuram和J.Keller[9]通过放松隶属度的约束限制而提出了PCM算法。其目标函数如下所示:
  
   其中,是惩罚因子并且是个正数,可取:
   尽管PCM算法克服了FCM的不足之处,但是对于高维数据,性能并不理理想,产生较严重的类中心重叠问题。
  3.模糊核聚类算法
  3.1 Mercer核
  假设输入空间的样本数据:
  
  被某种非线性映射映射到某空间H
  得到。那么空间的点积形式,在特征空间就可以用Mercer核来表示为:
   所有的这些样本数据就组成了一个核函数矩阵,这是众多非线性分类技术的基础,如支撑向量机、非线性区分分析等。核函数具有以下两个特征:
  对称性:
  
  满足Cauchy-Schwarz不等式:
  
  任何一个函数只要满足Mercer定理条件就可以作为Mercer核。
  
  特征空间中的点积就能用输入空间的核来表示,由此可以推出:。d(x,y)是特征空间中的欧氏距离,核代入技巧使得在原输入空间中诱导出了一类依赖于核的新的距离度量,由此将FCM推广为同一空间中不同距离度量的一种新的聚类方法。引入核函数之后,特征空间的内积运算转化为样本空间中核函数的计算,而不用知道的具体形式。常用的Mercer核:
  多项式核函数:
   其中d为使用人员定义的整数。
  高斯核函数:
   其中为高斯核函数的宽度。
  二层神经网络sigmoidal核函数:
   其中b,c为使用人员自定义的参数。
  特别说明,高斯核函数是普遍使用的核函数,因为高斯核函数对应的特征空间是无穷维的,有限的样本在该特征空间肯定是线性可分的。本文所采用的正是高斯核函数。
  3.2 新的模糊核聚类算法(HFCM
  算法)
  本文为每一个样本点分配一个动态权值,并且用一个平滑且连续的非线性核函数数据样本映射到高维空间H时:
  
  原数据空间中的数据样本的拓扑结构将保持不变[9,10],所以,我们可以在特征空间H中将目标函数表述为如下形式:
   其中表示特征空间H中第i类的中心。
  正如前面3.1中所述,内积可以通过核函数来获得,通过一个指定的核函数,内积就可以定义一个到特征空间的非线性映射,所以特征空间中的平方和准则就可以根据一个对称的核矩阵给出,式(13)中所定义的目标函数可以写成:
   其中:是所用的核函数,表示特征空间中的第k个向量到第i类中心的距离,式(14)即可作为模糊核聚类算法的目标函数。
  该目标函数中的为权重因子,q为一个实常数。由它来控制噪声数据对聚类结果的影响。由于噪声数据远离所有的类中心,从而分配一个较大权值(就小)给
  噪声点;对于普通数据样本分配一个较小(就大)。并且参数q对
  聚类结果同样有很大的影响。当时,每个数据样本的权重将趋近于,这时权重因子对每个数
  
  据样本的影响是相等的;当时,权重的影响将会达到最大。
  另外权重因子服从以下约束:
   其中,w为一个实常数,考虑式(16),由拉格朗日方程得到下面的无限制方程。
   对式(17)中的求偏导得:
   令,可求得:
   对式(19)整理得:
  
  将式(20)代入式(16)可得:
  
   进一步整理可得:
  
   将式(22)代入式(20)可得最终迭代式:
   依据经典模糊聚类算法,如FCM算法。和上面讲述的Q度量,可以得出下面的隶属度迭代公式:
  
   考虑权值关系的类中心迭代公式:
   其中:
  
  如3.1所述,本文将采用高斯核函数:
  
  
  其中为核参数,它是一个正常数。核函数中参数是分类效率的核心。在目前的研究中,核函数参数的选择方法大致可以分为三种:第一种采用遍历方式,对一个区间内的核参数,逐一进行测试;第二种是使用数据集估计最优核参数的方法。第三种是采用机器学习中的目标函数的方式,在新的特征空间中,使用目标函数来选择最佳的核参数。第三种方式是目前的研究热点。通常,目标函数选择一个描述来包含一个重要的权衡过程。一方面,希望选择非常有表征能力的描述,以最大可能的逼近理想的目标函数。另一方面,越有表征能力的描述就需要越多的训练样本,使程序能从它表示的多种假设中选择。本文正是采用了第三种方式[8]。
  首先对目标函数中的求偏导可得:
   根据梯度下降法,核参数的迭代式可得:
  
   其中,n为迭代步长,为学习率。
  3.3 算法描述
  初始化:初始化聚类类别数C,权重指数q,模糊因子m,学习率,设置核参数,迭代终止阈值threshold、最大迭代次数maxiter及设置迭代计数器iter=0。
  输入:模糊隶属度矩阵U的初值。
  输出:聚类中心、模糊隶属度矩阵。
  (1)initialize(U)/*初始化模糊隶属度矩阵*/
  (2)for iter=1 to maxiter
  
  (3) /*使
  
  用式(25)求聚类中心*/
  (4)计算
  
  (5)计算目标函数
  (6)then
  (7)exit for/*终止迭代过程,输出结果*/
  (8)end if
  (9)更新模糊隶属度矩阵U /*使用式(24)计算*/
  (10)更新核参数
  (11)next iter
   (12) 输出最终结果
  4.实验结果与分析
  为了验证本文所提出算法的有效性,在三组UCI数据集上进行实验。下面所有实验中,HFCM算法中设m=2,q=10,w=200。
  真实数据集实验:
  从UCI机器学习库中选取3个基准数据集进行算法性能测试。3个数据集分别是IRIS数据集、Breast cacer-wisconsin数据集、Glass数据集。最后的聚类精度的评估采用下面的评测方法:
   其中,表示第i类中正确的聚类数据样本数目,n表示数据集中的数据样本总数。依据这个评测标准,越高的r值表示获得越好的聚类效果,最理想的数值显然是r=1。
  4.1 IRIS数据集
  该数据集有150个样本,每一个样本有4个特征属性,共包含3个种类,每类有50个样本,其中第1类 其它两类完全分离,其余两个类之间有重叠部分。
  通过式(28)计算,表1给出了3个算法在该数据集上的性能比较。从表1中看出,FCM算法产生的误分数是16个,PCM算法产生的误分数多达50个,并且产生严重类中心重叠问题。然而,HFCM算法产生的误分数仅为11个,聚类精度高达0.93,迭代次数也是最少的。
   Breast cacer-wisconsin数据集是经典地用来测试分类效果的数据集。它有9个特征属性,分成良性和恶性两类,分别占65.5%和34.5%。原始数据集有699个数据样本,由于存在16个数据样本信息缺失的情况,实验中将只用其中683个有完整数据信息的样本。我们可以从表2中看出,HFCM算法明显优于其他模糊聚类算法。
  4.3 Glass数据集
  Glass数据集共有214个数据样本,每一个数据样本有9个特征属性,根据玻璃制品的组成成份分为6类。没有数据信息的缺失情况。我们可以从表3中看出,HFCM算法在性能上有明显优势。但是,三个聚类算法在该数据集上的效果都不是特别理想。
   4.4 算法抗噪性能分析比较
  为了进行抗噪性能分析,对IRIS、Breast cacer-wisconsin、Glass这3个有代表性的数据集分别加入原训练数据集的10%、20%、30%、40%的噪声数据。对比FCM和HFCM算法的抗噪性能。
  由图9-图10数据集抗噪图表可以看出:
  (1)加入噪声数据后,FCM算法与HFCM算法在数据集上的误分率都有所增长,并且随着噪声比例的增加,误分率更大。但是,HFCM算法的误分率在三个数据集上,都表现出优于FCM算法的抗噪性能。在IRIS数据集上FCM算法的误分率增长了24.7%-50%,HFCM算法的误分率只增长了2%-21.3%;在Breast cacer-wisconsin数据集上FCM算法的误分率增长了5.6%-24.6%,HFCM算法的误分率增长了3.6-21.6%;在Glass数据集上FCM算法的误分率增长了14%-34.1%,HFCM算法的误分率增长了0.1%-14.3%,尽管在Glass数据集上误分数比在其它数据集上多,但是增长率较为缓慢。
  (2)观察3幅图的曲线走向,随着噪声数据的不断增加,FCM算法在数据集上误分率上升较为明显,噪声数据越多,其误分率越高。而HFCM算法的误分率增长幅度较小,曲线趋于平稳。
  由此得出,HFCM算法优于经典模糊聚类算法,对数据集不敏感,在抗噪能力上具有很好的鲁棒性。
  5.结论
  针对经典模糊聚类算法面对不平衡的样本集、噪声数据敏感和高维数据集聚类效果不理想的问题,本文提出通过Mercer核函数,把数据样本空间映射到特征空间,再对特征空间的每一个向量分配一个动态的权值,从而在FCM模糊聚类的基础上得到一个新的包括向量权值的目标函数的算法。它在减少噪声数据敏感的同时,也保证了聚类效果的一致。这种将多种方法和手段相结合的理念也为以后的研究工作提供了更广阔的空间。当然,也会存在一些不足之处,例如,算法中最优参数选取之理论结果还有待进一步探讨。
  
  参考文献:
  [1]孙吉贵,刘杰,赵连宇. 聚类算法研究[J].软件学报,2008,19(1):48-61.
  [2]王亮,王士同.模糊聚类算法船舶故障诊断中的应用[J].微计算机信息,2011, 09(65):65-67.
  [3]王亮,王士同.动态权值混合C-均值模糊核聚类算法[J].软件学报,2011, 28(8):2852-2855.
  [4]Jain AK,Murty MN,Flynn PJ.Data clustering: A review.ACM Computing Surveys,1999,31(3):264-323.
  [5]Wu KL,Yang MS.Alternative c-means clustering algorithms.Pattern Recogni-tion,2002,35(10):2267-2278.
  [6]王骏,王士同.基于混合距离学习的双指数模糊C均值算法[J].软件学报, 2010,21(8):1878-1888.
  [7]Krishnapuram R,Keller J M.A possibilistic approach to clustering[J]. IEEE Trans.On FuzzSystems,1993,1(2):98-110.
  [8]D.Zhang,S.Chen,Z.-H.Zhou,Learning the kernel parameters in kernel minimum distance classifier,Pattern Recogn.Lett.2006,39(1):133-135.
  [9]Roth V,Steinhage V.Nonlinear discriminant analysis using kernel functions.In:Solla SA,Leen TK,Muller K-R,ed.Advances in Neural Information Processing Systems.Cambridge:MIT Press,1999:568-574.
  [10]沈红斌,王士同,吴小俊.离群模糊核聚类算法[J].软件学报,2004, 15(07):1021-1029.
  [11]张莉,周伟达,焦成新.核聚类算法[J].计算机学报,2002,25(06):587-590.
  
  作者简介:王亮(1981­—),男,河南鹤壁人,硕士研究生,无锡机电高等职业技术学校计算机教师,研究方向:人工智能模式识别。
其他文献
图像作为人类在工作生活中认识世界的主要途径,对其逼真度以及可懂度的度量是人类正确认知客观事物的重要标准。但是在图像的生命周期内图像可能会受到不同类型及程度的失真
"网络虚拟财产"是用既有民法规则解释信息时代法律发展过程中产生的新的"物"而使用的新名词,这些所谓的"物"的"所有"无法靠所有人自己对物本身进行标示符号来加以支配和占有
在任何一门语言的学习过程中,语法都是一个重要的学习内容。影响语法学习的因素有很多,如学习策略、学习兴趣、学习悟性以及年龄特点等等。本文重点讨论英语语法的“分龄段”教
<正>一、内部控制的概念及与人力资源管理的关系为防范与尽早发现企业管理中的错误与舞弊行为,同时提升企业的整体管理水平,2008年6月,财政部等五部委联合发布了《企业内部控
【正】 问;She believed John和She believed in John 两个句子的意思有无不同?答:She believed John=She believed what John said was true.
<正> 类中风是好发于中、老年病人的常见病、多发病,危害性大,致残率高。为探讨本病的中医证治特点及规律,现将1983年以来我们采用辨证分型治疗的53例,总结如下:一临床资料:
文化自信是一个国家构建文化软实力的基础,中国优秀传统文化是文化自信之根,语言是文化传播载体之一,而大学生更是传承创新中华文化的主力军。如何使英语教学和中华优秀传统
【正】 Antismut-designed to prohibit pornography用来禁止色情刊物、影片等等的(例) "Antismut" laws have been passed, then found to be unconstitutional. (The
在现代社会不断发展、进步的背景下,人们审美能力也在渐渐提高,对于艺术美的要求越来越高。而平面设计属于艺术设计中一个重要部分,具有广阔发展的空间,平面设计评判标准是艺
商业插画将商品的信息以最简洁、最明确、最清晰、最直观的方式传递给消费者,强化了商品的感染力,并使消费者在审美的过程中对商品产生兴趣,最终刺激消费者的购买欲望。本文