模糊谱聚类分割策略在文本聚类中的应用研究

来源 :贵州大学 | 被引量 : 9次 | 上传用户:da330136324
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本聚类作为一种无监督的机器学习方法,近年来已成为自然语言处理领域中研究的热点,传统的聚类算法只能将一个样本点划分到一个聚类中,但现实生活中,很多事物的归属并没有特别明确,模糊聚类(Fuzzy Clustering,FC)算法的出现为解决这些问题提供了新的思路,实现了对样本集合的模糊划分,模糊聚类中使用的最广泛的是FCM(Fuzzy C-means)算法。FCM属于分割聚类算法的一种,它存在着分割聚类算法普遍存在的缺点,如算法易陷入局部最优、对噪声数据敏感、需要事先指定聚类个数等问题。谱聚类算法(Spectral Clustering,SC)可以实现对任意形状的样本空间聚类,且得到全局最优解,本文通过将SC算法和FCM算法相结合,给出一种模糊谱聚类分割策略,即模糊谱聚类分割算法(Fuzzy Spectral Clustering,FSC),该算法实现了对任意形状样本空间的聚类;通过分析FSC中噪声点的隶属度,发现隶属度归一化约束条件存在的问题,并提出对该隶属度约束条件进行改进的方法,对FSC算法进行改进,进而得出改进隶属度的模糊谱聚类分割算法(Improved Membership Degree FSC,IMD-FSC),解决了噪声数据问题;根据拉普拉斯矩阵的特征值差异和聚类数目之间的关系,提出了一种自动确定聚类数目的方法,将其用于IMD-FSC算法中,得出了自适应的模糊谱聚类算法(Adaptive IMD-FSC,AIMD-FSC),实现了聚类数目的自动确定。本文给出了详细的实验步骤,将以上三种方法分别应用于文本聚类中,实现了对文本集合的模糊划分,使用准确率、召回率对实验的结果进行分析。实验结果表明,本文提出的AIMD-FSC算法的聚类效果得到了很大的提升,具备一定的应用价值。
其他文献
滑阀组件通常是将工艺不同的孔轴零件按照一定的配套规则进行组合而成。本文研究的滑阀组件将用于航空飞机,基于安全性考虑,孔轴零件的测量值和间隙值均精确至万分位,同时确
普适计算是一种全新的计算模式,其致力于将由通信和计算构成的信息空间与人们工作生活的物理空间融为一体,支持用户“随时随地”并且“透明”地获取符合其个性化需求的信息服
下一代的互联网数据与服务核心必然是云计算。它被使用在公共服务和按需计算服务领域。云计算不是一个全新的技术,而是在应用和服务创新中派生出来的,多租户就是云计算核心技
如今大数据产业的发展对全球经济发展方式的转变、人类生活水平的提高和国家综合能力的增强起到显著推动作用。为促进该产业又好又快的发展,首要任务就是开放共享数据,但企业
关联规则挖掘是数据挖掘研究中的热点问题之一,其目的是发现数据库中数据项之间存在的潜在联系。关联规则挖掘的重点任务是频繁模式挖掘。然而,由于频繁模式挖掘的复杂性,业
当前实际应用产生的数据维度越来越高,受维度效应的影响,许多在低维数据上表现良好的聚类方法运用在高维数据上时无法获得好的聚类效果。在过去十几年,高维数据的聚类方法是聚类
自主地面机器人技术是智能机器人研究领域的热点。自主地面机器人体系结构把感知、融合、建模、规划、决策、行动等多种模块结合起来,使得机器人系统在复杂环境中完成地面自
机翼是飞机的重要部件之一,是飞机飞行性能的决定因素之一。翼型是机翼性能的决定因素,因而翼型设计是机翼设计的首要环节。现代飞机设计要求翼型的设计周期不断缩短、性能不
随着多媒体技术和网络技术的飞速发展,数字媒体(数字图像、数字视频、数字音频等)已得到了广泛应用,人们在享受快速获取信息的同时,也面临着盗版、信息失控等非常严重的威胁,因
大粒度服务作为服务计算领域一个新兴的研究领域,受到了越来越多的关注。大粒度服务的出现和应用加强了互联网环境中服务共享、重用和集成的能力。为用户快速构建复杂系统提