基于子空间变量自动加权的K-均值文本聚类算法的研究

来源 :计算机应用与软件 | 被引量 : 1次 | 上传用户:hongdou0219
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的K-均值算法聚类虽然速度快,在文本聚类中易于实现,但其同量地依赖于所有变量,聚类效果往往不尽如人意。为了克服这一缺点,提出一种改进的K-均值文本聚类算法,它在K-均值聚类过程中,向每一个聚类簇中的关键词自动计算添加一个权重,重要的关键词赋予较大的权重。经过实验测试,获得了一种基于子空间变量自动加权的适合文本数据聚类分析的改进算法,它不仅可以在大规模、高维和稀疏的文本数据上有效地进行聚类,还能够生成质量较高的聚类结果。实验结果表明基于子空间变量自动加权的K-均值文本聚类算法是有效的大规模文本数据
其他文献
说服不仅是教育学生的一种手段,更是一门学问。面对一群天真活泼但心理承受能力较差的学生,要使说服达到良好效果,就要同他们心灵相融、感情相通。这就要求班主任必须掌握说服的
近年来.上海市闵行区全面理顺了社区教育管理体制.健全完善了运行机制,为促进闵行区社会、经济、教育与人文环境协调和谐发展.满足社区居民多元化教育需求.促进人的全面发展作出了
论述了基于MAPGIS平台的等高线矢量化方法,并对矢量化过程中出现的彩色地形图、等高线与图廓相交、断线及等高线方向不清等问题作了适当的方法论述。
针对模糊C-均值(Fuzzy C-Means,FCM)算法需要事先设定聚类数C,若设定不当,容易导致错分类的问题,提出了一种利用类间距阈值搜索聚类数的方法来确定最佳聚类数。算法可以自适应确定最佳聚类数,仿真结果表明了利用类间距阈值方法确定聚类数的有效性。
服务匹配是Web服务发现中的一个重要部分。随着Internet上Web服务的日益增多,如何从海量的服务中,迅速地找到令请求者满意的Web服务是研究者追求的目标。提出抽象服务的概念,提高了服务发现效率;给出了一种基于概率的Web服务选择算法,考虑了Web服务使用历史,让服务请求者在较短时间内得到所需的Web服务。
最近,党中央正式印发了《“三个代表”重要思想学习纲要》,在全国范围兴起了学习贯彻“三个代表”重要思想的新高潮。为了进一步把学习贯彻“三个代表”重要思想的活动引向深
针对网络并行环境的计算能力强而通信相对较慢的实际情况,给出了一种局域网上求解线性方程组的并行Gauss-Seidel迭代算法。该算法将线性方程组的系数矩阵及右端项按行分块,然后将分块的系数矩阵及右端项按卷帘方式存储在各处理机,每次迭代通过循环传送已求出的部分解分量以减少处理机间的通信开销,提高并行算法的效率。试验结果表明该算法具有较高的并行效率和加速比。
<正> 电能表的自动抄收是电力部门由来已久的梦想,随着通讯技术、电子技术的迅猛发展,这个梦想成为现实已为期不远。事实上,早在80年代初,一些西方发达国家就开始了这方面的
对于恒馏出液组成操作方式的间歇精馏,过程计算相对复杂,计算量很大。在常用软件Excel中利用VBA实现塔内各塔板液相组成xn与时间t的动态响应,完成间歇精馏的过程计算及模拟,具有可视化、即时化、自动化等优点,可行且有实用意义。
美国相关机构近日公布的数据显示.熟练技术工人短缺成了美国制造业面临的一大难题.81%的美国制造商自称缺乏足够的技术工人。拿飞机制造商波音公司来说.到2015年将有近40%、大约6