模糊聚类算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户：mzt1989

【摘要】

：

聚类分析是数据挖掘与知识发现的核心技术之一。模糊C-均值聚类算法（FCM）是一种基于原型的聚类算法，具有简单、高效、数据适应性强等特点，是聚类分析中使用最为频繁的算法和研究

【作者】

：

曾山

【出处】

：

华中科技大学

【发表日期】

：

2012年期

【关键词】

：

模糊C-均值聚类算法 K-L信息熵高斯混合分布谱分解 HPR乘子法半监督模糊聚类算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

聚类分析是数据挖掘与知识发现的核心技术之一。模糊C-均值聚类算法（FCM）是一种基于原型的聚类算法，具有简单、高效、数据适应性强等特点，是聚类分析中使用最为频繁的算法和研究热点。其中最受关注的问题为：（1）如何对FCM算法中目标函数恰当定义使该目标函数既能反映类内“距离”和类间“距离”要求的原则，又能体现各个特征以及不同样本的重要性；（2）无论FCM算法中目标函数如何定义，均会有相应的聚类原型与之对应，从而收敛速度甚至聚类效果必然依赖初始划分，如何建立一种基于模糊理论的聚类算法来规避聚类原型的问题，即从根本上解决对初始划分的敏感性；（3）如何恰当的去刻画半监督FCM算法，使监督样本既能体现其典型性，又不失其局限性；（4）如何减少FCM算法的计算量。针对问题（1）与（4），引入流形学习的相似度度量,从基于判别近邻嵌入流形学习算法、基于几何流形距离和基于统计流形距离三方面对FCM聚类算法展开研究。通过算例，基于几何流形距离的FCM算法能够有效的识别不规则簇；基于判别近邻嵌入流形学习的FCM聚类算法能够有效的进行特征降维并在人脸识别上取得了良好的效果；基于统计流形距离的FCM聚类算法特别适合处理高维且具有统计特性的样本聚类，计算量也较小。另外，将数据的统计特型与聚类算法相结合，研究了在传统FCM算法的目标函数中引入K-L信息熵来规则化FCM算法，并将距离函数采用高斯混合分布，应用于图像的分割，能将背景与目标充分分割开来。同时研究了任意高斯混合分布间的K-L距离度量，得到了更为紧凑的K-L距离度量公式，将其改造成具有对称性的距离度量，并引入到传统FCM算法和基于K-L信息熵规则化FCM算法中，建立了一种新的基于高斯混合分布间对称K-L距离及KL信息熵规则化的FCM聚类算法（GMM_PSKL-FCM），应用于图像聚类和检索中，不仅可以同时处理多类别的图像分类，而且大大减少了计算量。针对问题（1）、（2）与（4），首先研究了样本特征对分类的贡献来确定其权重，提出了基于类间分离度和类内紧缩度的特征加权FCM算法；然后采用加权FCM算法将待分数据集分割成多个小类（冗余类），通过每个样本隶属于各冗余类的隶属度值计算冗余类间的贴近度。以冗余类为图的节点，以冗余类间的贴近度为节点间的权重，并采用Zadeh运算下的Floyd算法计算得到具有较强块对称性的冗余类间的标准贴近度矩阵，提取其谱特征，再次采用FCM算法对谱特征进行聚类完成冗余类的合并。算例表明，基于谱分析的冗余模糊聚类算法既减少了样本容量又规避了聚类原型的影响。针对问题（3），本文将样本的先验知识转化为监督样本的隶属度约束条件加入到传统的FCM算法求解问题中，并根据监督样本的“典型性”赋予其权重，采用HPR(Hestenes-Powell-Rockafellar)乘子法进行求解，建立了一种新的加权半监督FCM算法（SSFCM-HPR）。监督样本的“典型性”取决于离它所隶属的聚类中心的远近，文中取监督样本的最大与次大隶属度值之比作为该监督样本的权重。该算法不仅保留了FCM算法对监督样本的模糊划分性，使其能有效的引导聚类过程，而且能发现其是否为交叉类样本，特别是当监督样本信息有误时，该算法能有效的减少噪声监督样本对整体分类效果的影响。同时本文在理论上还对半监督可能性聚类算法进行了探讨。结合上述流形学习及冗余聚类的FCM算法，可建立相应的半监督聚类算法，相应算法既可减少样本容量又能减低特征维数，从而大大降低算法的复杂度与计算量，从理论上没有难度，本文不再赘述。

其他文献

2015年2月下旬猪肉价格、旬比、环比和同比

2015年2月下旬，全国猪肉（精瘦肉）平均价格为14．37元／斤，价格筹为8．08元／斤。西藏猪肉价格最高，达到19．00元／斤，新疆猪肉价格最低，只有10．92元／斤。

期刊

价格猪肉市场分析经济增长

产蛋鸡育雏的饲养管理技术

蛋鸡育雏提倡35天定终身，即蛋鸡从出生到35日龄的体重达标对产蛋鸡一生的产蛋性能影响重大。因为35天体重与开产体重密切相关。5-6周体重不达标的鸡，开产体重偏低，性成熟时容易

期刊

产蛋鸡饲养管理技术育雏免疫器官发育开产体重遗传潜力性能影响免疫应答

浅析畜牧业科技档案管理的深远意义

目前畜牧业科技档案规范化管理是广大畜牧科技工作者进行科学研究的真实记录,是畜牧业发展不可缺少的一项重要工作。管理和利用好这些宝贵的资料,不仅是对历史负责,而且对发

期刊

档案畜牧业科技管理重要意义

萨福克改良多浪羊效果观察

近年来,羊肉市场供需矛盾非常突出,国内市场潜力巨大。预测羊肉在国际肉类贸易中的份额将会不断增长,特别是中东和北非国家进口量将大幅上升。因此,今后长时间内,国际国内羊

期刊

肉羊产业萨福克羊多浪羊市场供需矛盾市场潜力胸深养羊业发展公羔胸宽杂交试验

绿色木霉H7产纤维素酶条件的研究

采用摇床液体发酵试验,对绿色木霉产纤维素酶活性进行CMC酶活性测定,筛选出一株产纤维素酶活性较高的菌株T075,并通过试验,确定该菌株的最优产酶条件。结果表明,最佳组合条件

期刊

纤维素酶酶活性液体发酵

益生菌的作用机制及其应用

抗生素作为饲料添加剂在饲料加工和畜禽养殖业中不断应用,目的是预防动物胃肠道传染病,防止动物感染病菌以及促进动物生长.但抗生素在杀死致病菌的同时也杀死有益菌群,导致动

期刊

益生菌应用微生态平衡动物生长机制菌群失调畜禽养殖业饲料添加剂

华尔街开始唱多美股

2018年,标普500指数成份股公司有望实现22%的盈利增长,使得该基准股指的预期市盈率为15倍。与过去几年相比,市盈率依然很低。华尔街在岁末年初经历了动荡,多数机构更加重视对

期刊

MICHAELWILSON华尔街

基于马尔可夫链模型的滑坡位移预测研究

中国是一个滑坡灾害极为频繁的国家,三峡库区更是滑坡灾害的多发区和重灾区。尤其是库区蓄水之后,随着每年库水位的上升与下降,干流及支流两岸不稳定斜坡面临着新的不确定因

学位

地质灾害滑坡马尔可夫链数据挖掘

春运买车票刷卡享优惠

'双十一'过后,最值得蹲点抢的就是春运回家的火车票了。在购票的过程中,不妨收集一些银行卡购买火车票的优惠信息,也能帮你节省不少出行开支呢.2019年1月21日起春运

期刊

中国银联APP持卡人联名卡借记卡云闪付12306

宁夏西吉县人工草地发展现状调查

本文通过对宁夏西吉县近年来人工种草及草产品加工业发展现状的专题调查,综合分析了本县发展人工种草的制约因素、工作中存在的突出问题及矛盾,提出了全县稳定种草面积,提高

期刊

人工草地发展调查报告西吉县

模糊聚类算法研究

与本文相关的学术论文