一种高效中文文本聚类算法

来源 :计算机工程与科学 | 被引量 : 0次 | 上传用户:ch3192530
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本聚类算法面临着文本向量高维和极度稀疏的问题,传统降维方法多数是在假设关键词相互独立的前提下,通过统计的方法进行特征提取,这种方法往往忽略了文本在上下文语境中的语义关系,导致文本语义大量丢失。利用《知网》知识库,通过计算语义类相似度,构建了带权值的多条词汇链,根据权值大小,从中选取权值最大和次大的前两个词汇链组成代表文本的关键词序列,在此基础上提出了基于主题词汇链的文本聚类算法—TCABTLC,不但可以解决文本向量高维和稀疏导致的聚类算法运行效率低的问题,而且得到了较好的聚类效果。实验表明,在保持较好准
其他文献
这里介绍的弓,不是弓箭之弓,战争、狩猎之弓,而是旧时丈量地亩的器具和计算单位。一弓1.6米,360弓为一里,240平方弓为一亩。弓手,也叫持弓人。《辞海》:“古代用木制弓形器具
针对已有研究对图符一致性的影响考虑还不充分的不足,采用被试内实验设计,研究了人机界面图符一致性对识别效率及可靠性的影响。实验共分五组:实验一建立图符形状与指代功能之间的联系(建立用户心理模型);实验二考察图符外观/形状一致性的影响;实验三考察功能按键位置一致性的影响;实验四和实验五考察图符外观/形状与功能/语义匹配一致性的影响。五组实验的错误率差异的卡方检验结果为:实验四>实验五=实验三=实验二=
随着电动自行车成为人们短途出行的最佳工具,与之密切相关的供电桩行业也得到了蓬勃发展。目前,电动自行车供电桩一般被安装在小区内部的专有车棚或者地下室中,充电时,用户需
特征选择旨在降低待处理数据的维度,剔除冗余特征,是机器学习领域的关键问题之一。现有的半监督特征选择方法一般借助图模型提取数据集的聚类结构,但其所提取的聚类结构缺乏清晰
稀疏矩阵向量乘是许多科学计算的核心,计算中大量的间接和随机访存成为计算的主要瓶颈。本文通过分析稀疏矩阵向量乘运算的数据结构和计算过程,得到计算中不同数据的访存特征,并
复杂网络广泛应用于自然、社会、生物、工程技术等众多领域,现实世界中存在的大量复杂系统,都可以用网络来描述,复杂网络研究为探讨复杂系统的性质提供了一个新的视角。文章首先
基于特种泡沫的新型长效无污染多波段干扰技术,针对激光武器的有效干扰问题,研究了干扰泡沫的多界面特征对激光透射锐减效应的影响.
90年代初的一个下午,我登门去采访曾志同志,来到她的住处时,她家小阿姨不无埋怨地笑着说:“曾奶奶老闲不住,又在院子里种树呢。”我跟着小阿姨来到院子里,老远看见一位穿戴整
更高的城市化率造成新的城市生态环境问题和变化趋势,新理论与新技术也为生态环境监测与管理提供了新方法。景感生态学是以可持续发展为目标,基于生态学的基本原理,从自然要
嵌入式系统对处理器功耗开销有严格的限制,异步电路技术可以作为设计低功耗处理器的有效方法之一。针对嵌入式多媒体应用,本文设计实现了一款低功耗异步微处理器——腾越-Ⅱ