基于模糊C均值和改进的LSA的文档聚类研究

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:ys331223
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文中研究的是文档聚类的方法,即将给定文档集合中的文档进行分类,以达到准确聚类的目的。提出了一种将模糊C均值(FCM)和改进的LSA(Latent Semantic Analysis)相结合进行文档聚类的方法。采用改进的词语特征提取方法构建词-文档矩阵,对该词-文档矩阵进行奇异值分解,从传统的VSM向量空间中提取文本的潜在语义空间,进而将高维的文档向量映射为低维空间的语义向量,文档之间相似度的计算采用文档语义向量的余弦表示。然后采用模糊C均值根据上述计算文档相似度的结果对文档进行聚类。针对校园论坛中的文档数
其他文献
K-means聚类算法是一种主流的迭代下降聚类算法,收敛于局部最优化状态。由于K-means随机选取k个初始聚类中心,使得聚类结果的有效性随初始输入而波动,为此文中采取一种预处理的方式来选取初始聚类中心。首先在某种范数的意义下,确定相隔最远的两个数据点之间的距离,然后采用数据分段的方法,将数据集分成k段,在每段中选取一个中心,以此来减小聚类结果随初始输入的波动。实验显示优化后的K-means有效地
在班集体管理工作中,许多班主任往往只注重德育的群体性,忽视德育的个体性,很少顾及学生的个体需要。在工作方法上,常常只限于发出一般性号召,提出抽象的整体性要求,对学生个性发展
今天我们庆祝《理论与创作》创刊100期,办刊16年,我感到非常高兴.《理论与创作》是一本文艺理论批评杂志,在市场经济的环境下站稳了脚跟,在全国如林的杂志、期刊中占有一席之
教育部2002年12月27日颁布了《关于积极推进中小学评价与考试制度改革的通知》(以下简称《通知》),要求中小学要建立以促进学生发展为目标的评价体系。评价的标准主要包括基础性
主题搜索网络机器人的研究对于主题搜索引擎整体性能的提高具有重要意义。鉴于国内尚缺少专门面向中医药主题的搜索引擎,针对中医药信息的特点提出了中医药主题搜索网络机器
莫言的<檀香刑>于新世纪的第一年面世,引起了各种各样的反应,有的揄扬为新世纪第一部伟大的长篇小说,有的斥之为媚俗审丑,莫衷一是.这些批评都有道理.本文打算把这部小说放在
目的:探讨逐瘀降浊汤联合阿托伐他汀治疗脑梗塞的临床效果。方法:选择2017年1月-2019年1月期间在本院治疗的65例脑梗塞患者,随机分为对照组(32例)和观察组(33例)。两组患者均
目的:探讨早期康复护理对于脑卒中患者运动功能恢复及改善生活质量的影响。方法:本次研究对象为深圳蛇口人民医院2017年7月-2018年7月的50例脑卒中患者,给予患者早期康复护理
目的:研究经皮穴位刺激对妇科腹腔镜术后镇痛的临床效果。方法:将我院2017年6月-2019年5月收治的行择期妇科腹腔镜手术患者共148例随机分为对照组和观察组,两组均常规全麻下
现有的代理数字签名方案大多基于离散对数问题和大数因子分解问题,其安全性受到较大威胁。为提高安全性,在对现有方案分析后,提出了一种新的代理签名方案。与椭圆曲线相比,超