基于样本—特征加权的模糊核聚类算法研究及应用

被引量 : 0次 | 上传用户:lxbyftk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是多元统计分析的一种,也是非监督模式识别的一个重要分支。聚类的最终目的是使相似的样本之间的距离尽可能地小,而不相似的样本之间的距离尽可能地大。随着模糊集理论的提出和不断发展,模糊聚类分析已成为聚类分析研究的主流。其中理论最完善,应用最广泛的是基于目标函数的模糊C均值(Fuzzy C-Means,FCM)算法。如今FCM算法已被广泛地应用于数据挖掘、模式识别等领域中。文本挖掘是数据挖掘研究的一个重要领域。在进行文本处理时,需要把文本数据从非结构化的形式,转化为计算机可以直接处理的结构化形式。而目前计算机还难以理解人类自然语言之间的语义歧义等问题,因此,要达到更好的符合现实需要的数据挖掘效果,还需要结合其它方面的知识对文本挖掘进行更深入的探索与研究。而FCM算法用于文本挖掘还存在着许多问题。本文首先对模糊C-均值算法,可能性聚类算法,可能性模糊C均值算法进行了实验模拟分析和比较;其次针对FCM算法的不足做了相关改进:(1)针对传统模糊C-均值聚类算法对初始聚类中心较为敏感的问题,利用FCM算法运行最后所得的聚类中心作为新的算法的初始聚类中心,避免了上述问题;(2)由于模糊C-均值算法不考虑不同样本集对聚类结果的影响,而实际应用中不同的样本对聚类的贡献程度不一样,也就是不同样本集对聚类有着不同程度的影响。针对此问题,对样本的隶属度进行了优化,引入了一个样本权重,考虑了样本对聚类的影响,并进行了实验模拟仿真;(3)针对经典的模糊C-均值聚类算法对噪声数据较为敏感、未考虑样本特征间的不平衡性等问题,提出了一种基于样本-特征加权的可能性模糊核聚类算法,将可能性聚类应用到模糊聚类中并与模糊C-均值聚类算法相结合,在聚类过程中动态计算样本权值和特征权值,并利用核函数把低维特征空间中线性不可分的数据映射到高维特征空间中的可分数据,以提高聚类的准确率和抗噪性。同时将新算法与模糊C-均值算法、可能性聚类算法、可能性模糊C-均值聚类算法在UCI数据集、X12数据集和人造含噪声数据集上进行聚类实验,对新算法的聚类准确率和抗噪性进行验证分析。
其他文献
农业技术推广是现代农业发展必不可少的助推器。2012年一月,中共中央国务院下发了名为《关于加快推进农业科技创新持续增强农产品供给保障能力的若干意见》的一号文件,文件明
在城市化快速发展的进程中,休闲农业逐渐被人们所关注。各类休闲农业产区也依托自身固有的资源,进行过度地开发。其具体表现在项目的重复性,文化的单一性、体验的缺乏性等特
从09年3G制式推广开始,中国的电信业三大运营商进入了全业务竞争时代,同时,也标志着中国电信通过3G牌照,正式进入了移动网络运营元年。广西电信,作为区域内最强大的固网运营
《小说月报》创刊于1910年,先后历经22年,对于研究中国文学史具有重要的意义。本文从传播学的视角切入,以1921——1931年的《小说月报》为研究对象,探讨革新后的《小说月报》
近几年来,随着城市化进程的不断加快和工业化的发展,工业废水排放问题成为社会关注的焦点,工业废水不仅对城市的经济活动以及城市的现代化建设造成影响,还会对城市居民的健康
随着我国经济的飞速发展,民办高校的招生规模快速扩张,国家出台系列政策大力扶持民办高校,使民办高校有了更多的发展机遇。但是不少民办高校将大部分精力投入到招生工作中,忽略了
宽松的货币条件(如低利率)经常因导致信贷规模的过度扩张而成为金融失衡和经济波动的原因。2008年国际金融危机发生后,货币政策是否引起银行风险行为增加进而导致危机发生成为国
本文依据公开发表的空天飞行器(ASV)的结构模型参数,建立了飞行器质心动力学方程和质心运动学方程,给出了简化的补充方程,并进行了最大升阻比弹道仿真。高超声速飞行器的弹道优化
本文研究的是股票投资价值分析,作者选定友谊股份(上海友谊集团股份有限公司)作为分析对象,利用MBA学习期间掌握的相关知识,首先分析当前国家宏观经济发展形势和介绍当前我国证
变频调速系统广泛应用于航空、航天、工业生产等各个领域,随着人们对变频器性能要求的不断提升,提高变频器调速精度和可靠性日益成为人们研究的热点问题。矢量控制中往往需要电