一种基于簇相合性的文本增量聚类算法

来源 :计算机工程 | 被引量 : 0次 | 上传用户:malongqingse
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统文本聚类方法只适合处理静态样本,且时间复杂度较高。针对该问题,提出一种基于簇相合性的文本增量聚类算法。采用基于词项语义相似度的文本表示模型,利用词项之间的语义信息,通过计算新增文本与已有簇之间的相合性实现对文本的增量聚类。增量处理完部分文本后,对其中错分可能性较大的文本重新指派类别,以进一步提高聚类性能。该算法可在对象数据不断增长或更新的情况下,避免大量重复计算,提高聚类性能。在20 Newsgroups数据集上进行实验,结果表明,与k-means算法和SHC算法相比,该算法可减少聚类时间,提高聚类性
其他文献
第一部分肩胛固定旋复法治疗肩关节脱位的临床应用目的:通过CT三维成像分析肩关节脱位机制,探讨肩胛固定旋复法整复肩关节前脱位的临床疗效。方法:自2014年9月至2015年3月,采
水文工作是环境保护工作中的一个重要内容,随着环境问题的日益突出,水文工作的重要性也越来越明显,水文测站是进行水质情况监测的一个观测场所,其基本水准点是进行水文监测的
鸦片战争后,在西方压力与督促下,清政府派出驻外使团。本文详细论述了晚清第一个驻外使团——郭嵩焘驻英使团人员的组成、使馆的成立,以及随之而来的近代中国出使制度的建立
语文教学除重视课堂教学外,加强课外阅读也非常重要。我们可从古代经典文化、现当代作家作品、外国名著、社会生活中阅读,让学生从课外阅读中熏陶感染,提高语文素养。 Besid
对股票市场IPO抑价的研究一直是学术界的热点,研究IPO抑价的中西方理论也非常丰富,有基于信息对称,也有基于信息不对称的IPO抑价理论。我国证券监督管理部门对股票发行制度不
目的了解喀什地区维吾尔族、汉族非酒精性脂肪性肝病(NAFLD)患者的肝功、血糖、血脂分析。方法收集于2016年12月—2017年12月在该院住院检查确诊为非酒精性脂肪性肝病(NAFLD)
提出一种基于端到端单播测量的网络拓扑识别方法。在数据测量方面,采用改进的三明治分组探测机制获取往返时延差,进行节点相关性推断。在拓扑推断方面,以树的深度优先序列作
随着金融市场的发展,标准期权已经不能满足各类投资者的需求,为了满足交易者的个性化需求,各类各样的非标准期权即奇异期权相继涌现出来.奇异期权成为一种重要的金融衍生产品
在RFC 5555协议基础上,设计并实现一套双栈移动IPv6环境下以流为粒度的多接口业务流切换方法。利用Linux的XFRM框架、Netfilter框架以及策略路由技术,给出一种多接口移动终端在
传统基于核的最小均方误差(KMSE)算法在进行人脸识别时,需要求解多个方程,计算量较大。为此,提出一种用于多类识别的基于核的多元最小均方误差(KMSEMC)算法,该算法只需一个方程即可。在AR人脸库上的实验及数据分析表明,该算法在时间复杂度和识别率等方面计算量较小,在识别性能和计算时间上都优于同类传统算法。