一种有效的文本聚类算法

来源 :第二十三届中国数据库学术会议(NDBC2006) | 被引量 : 0次 | 上传用户:Hmilts
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出了一种新的有效的文本聚类算法RTC,该算法在球形k-means的基础上运用两种不同的策略:优化的初始中心选择和划分调整来解决文本聚类中容易陷入质量差的局部最优状态问题.实验结果表明,RTC算法具有很好的聚类精确度和相对较好的时间复杂度,在聚类精确度上要远高于标准的球形k-means算法和二分k-means算法,而在精确度和时间复杂度两方面都要优于另一种基于局部搜索策略的Ping-pong算法,尤其在时间上,测试表明大部分情况下RTC算法比Ping-Pong快5倍以上。
其他文献
为改善夏季面漆线涂装工作高温低湿环境以提高汽车涂装质量,提出了一种新型的加湿降温改造方案.通过在空调内安装滴下浸透式湿材加湿器,大大降低了面漆线夏季空调送风温度.经
2006年10月1日至10月11日,机械工业第三设计研究院组织了一批技术人员先后到美国纽约、芝加哥、底特律、布法罗、华盛顿五城市进行了为期11天的考查活动.在美国芝加哥市,我们
CBCT的图像质量与扫描所采用的KV值、mAs大小、过滤方式以及重建方式有关;也与扫描过程中器官生理运动有关。本文首先影像引导系统XVI进行了介绍,阐述了CBCT的图像质量、CBCT
本文将形状与体积已知的模体分别置放于Conebeam CT的不同位置进行XVT扫描,并与普通螺旋CT中扫描结果及模体标称值进行比较,从而描述Conebeam CT进行XVI扫描重建精度,并检查
近日,永诚保险上海分公司在“兴业银行2009年度保险供应商”招标活动中,成功中标意外险项目。永城保险表示,该此项目的中标是永诚保险上海分公司在拓展银行保险渠道方面的新
本文介绍了钛以及钛粉的用途以及其重要性,对比了目前生产钛粉的几种方法,着重介绍了生产加工钛粉最常用的方法--氢化脱氢法.柔韧的海绵钛金属颗粒、边角钛或者废钛屑在一定
会议
本文采用仿真邮件系统得到的数据来建立社会犯罪集团网络,提出了基于社会网络中的六度定理的最短路径算法SPLINE,并在此基础上提出了犯罪集团网络核心成员挖掘算法KMM,通过实
阈值分割可分为两种:二值化和多值化.在二值化方法中,传统二维阈值分割算法大部分是在假设双峰情况下研究的,不少人将传统方法推广到多阈值分割,也有采用改进聚类分析的方案
会议
聚类分析是研究和处理所给定对象分类的数学方法,它将对象划分为一系列的子对象(或类),使得每一类中的数据尽量地相似,不同类尽可能有较大差异.广泛使用的聚类算法有K-Means,
会议
这篇文章针对当前Clique聚类算法中划分粒度选取时出现的问题,提出了GC-Clustering算法.GC-Clustering算法要求用户提供的参数分别为描述长度的参数l和密度参数σ,密度参数σ
会议