基于样本—特征加权的模糊核聚类算法研究及应用

被引量 : 0次 | 上传用户：lxbyftk

【摘要】

：

聚类分析是多元统计分析的一种，也是非监督模式识别的一个重要分支。聚类的最终目的是使相似的样本之间的距离尽可能地小，而不相似的样本之间的距离尽可能地大。随着模糊集理论

【作者】

：

刘建林

【发表日期】

：

2013年期

【关键词】

：

样本加权特征加权模糊聚类核 FCM 可能性模糊聚类文本聚类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

聚类分析是多元统计分析的一种，也是非监督模式识别的一个重要分支。聚类的最终目的是使相似的样本之间的距离尽可能地小，而不相似的样本之间的距离尽可能地大。随着模糊集理论的提出和不断发展，模糊聚类分析已成为聚类分析研究的主流。其中理论最完善，应用最广泛的是基于目标函数的模糊C均值（Fuzzy C-Means，FCM）算法。如今FCM算法已被广泛地应用于数据挖掘、模式识别等领域中。文本挖掘是数据挖掘研究的一个重要领域。在进行文本处理时，需要把文本数据从非结构化的形式，转化为计算机可以直接处理的结构化形式。而目前计算机还难以理解人类自然语言之间的语义歧义等问题，因此，要达到更好的符合现实需要的数据挖掘效果，还需要结合其它方面的知识对文本挖掘进行更深入的探索与研究。而FCM算法用于文本挖掘还存在着许多问题。本文首先对模糊C-均值算法，可能性聚类算法，可能性模糊C均值算法进行了实验模拟分析和比较；其次针对FCM算法的不足做了相关改进：（1）针对传统模糊C-均值聚类算法对初始聚类中心较为敏感的问题，利用FCM算法运行最后所得的聚类中心作为新的算法的初始聚类中心，避免了上述问题；（2）由于模糊C-均值算法不考虑不同样本集对聚类结果的影响，而实际应用中不同的样本对聚类的贡献程度不一样，也就是不同样本集对聚类有着不同程度的影响。针对此问题，对样本的隶属度进行了优化，引入了一个样本权重，考虑了样本对聚类的影响，并进行了实验模拟仿真；（3）针对经典的模糊C-均值聚类算法对噪声数据较为敏感、未考虑样本特征间的不平衡性等问题，提出了一种基于样本-特征加权的可能性模糊核聚类算法，将可能性聚类应用到模糊聚类中并与模糊C-均值聚类算法相结合，在聚类过程中动态计算样本权值和特征权值，并利用核函数把低维特征空间中线性不可分的数据映射到高维特征空间中的可分数据，以提高聚类的准确率和抗噪性。同时将新算法与模糊C-均值算法、可能性聚类算法、可能性模糊C-均值聚类算法在UCI数据集、X12数据集和人造含噪声数据集上进行聚类实验，对新算法的聚类准确率和抗噪性进行验证分析。

其他文献

广西农业技术推广组织能力研究

农业技术推广是现代农业发展必不可少的助推器。2012年一月,中共中央国务院下发了名为《关于加快推进农业科技创新持续增强农产品供给保障能力的若干意见》的一号文件,文件明

学位

广西农业技术推广组织能力AHP

地域文化体验之农庄的规划设计研究

在城市化快速发展的进程中,休闲农业逐渐被人们所关注。各类休闲农业产区也依托自身固有的资源,进行过度地开发。其具体表现在项目的重复性,文化的单一性、体验的缺乏性等特

学位

休闲农庄地域文化的体验产权利益的可持续

广西电信3G市场营销策略研究

从09年3G制式推广开始,中国的电信业三大运营商进入了全业务竞争时代,同时,也标志着中国电信通过3G牌照,正式进入了移动网络运营元年。广西电信,作为区域内最强大的固网运营

学位

广西电信3G市场营销策略

传播学视野下的《小说月报》（1921-1931）研究

《小说月报》创刊于1910年,先后历经22年,对于研究中国文学史具有重要的意义。本文从传播学的视角切入,以1921——1931年的《小说月报》为研究对象,探讨革新后的《小说月报》

学位

传播学《小说月报》办刊宗旨主编

工业废水监测问题以及应对思考

近几年来,随着城市化进程的不断加快和工业化的发展,工业废水排放问题成为社会关注的焦点,工业废水不仅对城市的经济活动以及城市的现代化建设造成影响,还会对城市居民的健康

期刊

工业废水监测问题应对策略

民办高校教育质量保障体系研究

随着我国经济的飞速发展，民办高校的招生规模快速扩张，国家出台系列政策大力扶持民办高校，使民办高校有了更多的发展机遇。但是不少民办高校将大部分精力投入到招生工作中，忽略了

学位

民办高校质量问题内部质量保障体系外部质量保障体系

基于PSTR模型的货币政策对银行风险的非线性影响研究

宽松的货币条件（如低利率）经常因导致信贷规模的过度扩张而成为金融失衡和经济波动的原因。2008年国际金融危机发生后，货币政策是否引起银行风险行为增加进而导致危机发生成为国

学位

货币政策银行风险非线性PSTR模型利率法定存款准备金率

高超声速飞行器再入热环境分析及弹道优化设计

本文依据公开发表的空天飞行器（ASV）的结构模型参数，建立了飞行器质心动力学方程和质心运动学方程，给出了简化的补充方程，并进行了最大升阻比弹道仿真。高超声速飞行器的弹道优化

学位

高超声速飞行器热环境分析弹道优化

友谊股份投资价值分析

本文研究的是股票投资价值分析，作者选定友谊股份(上海友谊集团股份有限公司)作为分析对象，利用MBA学习期间掌握的相关知识，首先分析当前国家宏观经济发展形势和介绍当前我国证

学位

估值分析战略分析投资股票

感应电机单电流传感器调速系统控制策略及参数辨识方法研究

变频调速系统广泛应用于航空、航天、工业生产等各个领域，随着人们对变频器性能要求的不断提升，提高变频器调速精度和可靠性日益成为人们研究的热点问题。矢量控制中往往需要电

学位

变频器静止参数辨识线性神经网络电流传感器故障诊断容错控制

基于样本—特征加权的模糊核聚类算法研究及应用

与本文相关的学术论文