基于子空间变量自动加权的K-均值文本聚类算法的研究

来源 :计算机应用与软件 | 被引量 : 1次 | 上传用户：hongdou0219

【摘要】

：

传统的K-均值算法聚类虽然速度快,在文本聚类中易于实现,但其同量地依赖于所有变量,聚类效果往往不尽如人意。为了克服这一缺点,提出一种改进的K-均值文本聚类算法,它在K-均值聚类过程中,向每一个聚类簇中的关键词自动计算添加一个权重,重要的关键词赋予较大的权重。经过实验测试,获得了一种基于子空间变量自动加权的适合文本数据聚类分析的改进算法,它不仅可以在大规模、高维和稀疏的文本数据上有效地进行聚类,还能

【作者】

：

宁涛晋博晨宋存利

【机构】

：

大连交通大学软件学院

【出处】

：

计算机应用与软件

【发表日期】

：

2008年08期

【关键词】

：

文本聚类 K-均值变量加权子空间 Text clustering K-means Features weight Subspace

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

如何才能有效说服学生

说服不仅是教育学生的一种手段，更是一门学问。面对一群天真活泼但心理承受能力较差的学生，要使说服达到良好效果，就要同他们心灵相融、感情相通。这就要求班主任必须掌握说服的

期刊

学生心理承受能力工作经验班主任

重心下移开拓创新创建示范区工作

近年来．上海市闵行区全面理顺了社区教育管理体制．健全完善了运行机制，为促进闵行区社会、经济、教育与人文环境协调和谐发展．满足社区居民多元化教育需求．促进人的全面发展作出了

期刊

示范区上海市闵行区教育管理体制重心创新人的全面发展社区居民多元化教育

基于MAPGIS的等高线矢量化研究

论述了基于MAPGIS平台的等高线矢量化方法,并对矢量化过程中出现的彩色地形图、等高线与图廓相交、断线及等高线方向不清等问题作了适当的方法论述。

期刊

MAPGIS等高线矢量化彩色地形图MAPGIS Contour line Vectorization Color relief map

一种基于类间距阈值的模糊聚类算法

针对模糊C-均值(Fuzzy C-Means,FCM)算法需要事先设定聚类数C,若设定不当,容易导致错分类的问题,提出了一种利用类间距阈值搜索聚类数的方法来确定最佳聚类数。算法可以自适应确定最佳聚类数,仿真结果表明了利用类间距阈值方法确定聚类数的有效性。

期刊

类间距模糊聚类FCMClusters＇ interval Fuzzy clustering FCM

基于抽象服务和概率的服务发现方法

服务匹配是Web服务发现中的一个重要部分。随着Internet上Web服务的日益增多,如何从海量的服务中,迅速地找到令请求者满意的Web服务是研究者追求的目标。提出抽象服务的概念,提高了服务发现效率;给出了一种基于概率的Web服务选择算法,考虑了Web服务使用历史,让服务请求者在较短时间内得到所需的Web服务。

期刊

WEB服务服务发现抽象服务选择概率Web services Service discovery Abstract service Chosen prob

专家笔会：学习《纲要》精神践行“三个代表”——青少年精神文明建设要把握好几个问题

最近,党中央正式印发了《“三个代表”重要思想学习纲要》,在全国范围兴起了学习贯彻“三个代表”重要思想的新高潮。为了进一步把学习贯彻“三个代表”重要思想的活动引向深

期刊

“三个代表”青少年精神文明建设全面建设小康社会民族精神

局域网上求解线性方程组的一种并行Gauss-Seidel迭代算法

针对网络并行环境的计算能力强而通信相对较慢的实际情况,给出了一种局域网上求解线性方程组的并行Gauss-Seidel迭代算法。该算法将线性方程组的系数矩阵及右端项按行分块,然后将分块的系数矩阵及右端项按卷帘方式存储在各处理机,每次迭代通过循环传送已求出的部分解分量以减少处理机间的通信开销,提高并行算法的效率。试验结果表明该算法具有较高的并行效率和加速比。

期刊

线性方程组Gauss—Seidel迭代并行算法网络并行环境Linear system Gauss-Seidel iteration Parallel a

远程自动抄表系统在电力系统应用的可行性

<正> 电能表的自动抄收是电力部门由来已久的梦想,随着通讯技术、电子技术的迅猛发展,这个梦想成为现实已为期不远。事实上,早在80年代初,一些西方发达国家就开始了这方面的

期刊

自动抄表系统电力系统应用

VBA实现恒馏出液组成间歇精馏的计算机模拟

对于恒馏出液组成操作方式的间歇精馏,过程计算相对复杂,计算量很大。在常用软件Excel中利用VBA实现塔内各塔板液相组成xn与时间t的动态响应,完成间歇精馏的过程计算及模拟,具有可视化、即时化、自动化等优点,可行且有实用意义。

期刊

VBA间歇精馏EXCEL计算机模拟VBA Batch distillation Excel Computer simulation

制造业大国离不开职业教育

美国相关机构近日公布的数据显示．熟练技术工人短缺成了美国制造业面临的一大难题．81％的美国制造商自称缺乏足够的技术工人。拿飞机制造商波音公司来说．到2015年将有近40％、大约6

期刊

制造业职业教育飞机制造商技术工人数据显示波音公司美国招聘

基于子空间变量自动加权的K-均值文本聚类算法的研究

与本文相关的学术论文