一种基于簇相合性的文本增量聚类算法

来源 :计算机工程 | 被引量 : 0次 | 上传用户：malongqingse

【摘要】

：

传统文本聚类方法只适合处理静态样本，且时间复杂度较高。针对该问题，提出一种基于簇相合性的文本增量聚类算法。采用基于词项语义相似度的文本表示模型，利用词项之间的语义信息

【作者】

：

陶舒怡王明文万剑怡罗远胜左家莉

【机构】

：

江西师范大学计算机信息工程学院,江西财经大学网络信息管理中心,江西师范大学初等教育学院

【出处】

：

计算机工程

【发表日期】

：

2014年6期

【关键词】

：

文本聚类增量聚类语义相似度簇相合性文本再分配 text clustering incremental clustering semantic simil

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

传统文本聚类方法只适合处理静态样本，且时间复杂度较高。针对该问题，提出一种基于簇相合性的文本增量聚类算法。采用基于词项语义相似度的文本表示模型，利用词项之间的语义信息，通过计算新增文本与已有簇之间的相合性实现对文本的增量聚类。增量处理完部分文本后，对其中错分可能性较大的文本重新指派类别，以进一步提高聚类性能。该算法可在对象数据不断增长或更新的情况下，避免大量重复计算，提高聚类性能。在20 Newsgroups数据集上进行实验，结果表明，与k-means算法和SHC算法相比，该算法可减少聚类时间，提高聚类性

其他文献

肩胛固定旋复法整复肩关节前脱位的临床疗效研究

第一部分肩胛固定旋复法治疗肩关节脱位的临床应用目的:通过CT三维成像分析肩关节脱位机制,探讨肩胛固定旋复法整复肩关节前脱位的临床疗效。方法:自2014年9月至2015年3月,采

学位

肩脱位复位肩峰固定外旋肩关节脱位手法前瞻性研究

关于水文测站基本水准点校测及引测探讨

水文工作是环境保护工作中的一个重要内容,随着环境问题的日益突出,水文工作的重要性也越来越明显,水文测站是进行水质情况监测的一个观测场所,其基本水准点是进行水文监测的

期刊

水文测站基本水准点校测与引测

晚清首任驻英使团的出使及近代中国出使制度的建立

鸦片战争后,在西方压力与督促下,清政府派出驻外使团。本文详细论述了晚清第一个驻外使团——郭嵩焘驻英使团人员的组成、使馆的成立,以及随之而来的近代中国出使制度的建立

期刊

晚清外交驻外使团出使制度

高中语文教学要重视课外阅读

语文教学除重视课堂教学外,加强课外阅读也非常重要。我们可从古代经典文化、现当代作家作品、外国名著、社会生活中阅读,让学生从课外阅读中熏陶感染,提高语文素养。 Besid

期刊

高中语文课外阅读重要性

企业质量、IPO抑价与股权再融资可能性研究

对股票市场IPO抑价的研究一直是学术界的热点,研究IPO抑价的中西方理论也非常丰富,有基于信息对称,也有基于信息不对称的IPO抑价理论。我国证券监督管理部门对股票发行制度不

学位

IPO抑价率信息不对称信号传递理论投资者情绪

喀什地区维、汉族非酒精性脂肪性肝病患者肝功能、血脂血糖、超敏C-反应蛋白指标分析

目的了解喀什地区维吾尔族、汉族非酒精性脂肪性肝病(NAFLD)患者的肝功、血糖、血脂分析。方法收集于2016年12月—2017年12月在该院住院检查确诊为非酒精性脂肪性肝病(NAFLD)

期刊

非酒精性脂肪性肝病(NAFLD)维吾尔族汉族Non-alcoholic fatty liver disease(NAFLD)UygurHan nation

基于端到端单播测量的网络拓扑识别方法

提出一种基于端到端单播测量的网络拓扑识别方法。在数据测量方面,采用改进的三明治分组探测机制获取往返时延差,进行节点相关性推断。在拓扑推断方面,以树的深度优先序列作

期刊

网络层析成像端到端测量三明治分组排队时延拓扑推断network tomography end-to-end measurement sandwich

关于奇异期权的定价研究

随着金融市场的发展,标准期权已经不能满足各类投资者的需求,为了满足交易者的个性化需求,各类各样的非标准期权即奇异期权相继涌现出来.奇异期权成为一种重要的金融衍生产品

学位

鞅方法O-U过程回望期权复合期权自由边界

基于双栈移动IPv6的业务流切换方法

在RFC 5555协议基础上，设计并实现一套双栈移动IPv6环境下以流为粒度的多接口业务流切换方法。利用Linux的XFRM框架、Netfilter框架以及策略路由技术，给出一种多接口移动终端在

期刊

双栈移动IPv6XFRM框架NETFILTER框架策略路由多接口移动终端流切换Dual Stack Mobile IPv6（DSMIPv6） XFR

基于核的最小均方误差改进算法及其应用

传统基于核的最小均方误差(KMSE)算法在进行人脸识别时,需要求解多个方程,计算量较大。为此,提出一种用于多类识别的基于核的多元最小均方误差(KMSEMC)算法,该算法只需一个方程即可。在AR人脸库上的实验及数据分析表明,该算法在时间复杂度和识别率等方面计算量较小,在识别性能和计算时间上都优于同类传统算法。

期刊

模式识别人脸识别最小均方误差算法基于核的最小均方误差算法时间复杂度pattern recognition face recognition minim

一种基于簇相合性的文本增量聚类算法

与本文相关的学术论文