论文部分内容阅读
提出一种基于图聚类的突发话题检测方法(G-BTD).该方法用有向加权图表示包含突发热点话题的文本集,顶点为突发词,有向边表示突发词之间非对称的相关性,边的权重表示相关的程度.由于相同话题的重要话题词以双向高权重的边相连,形成强连通子图,因此本文采用提取强连通子图的方法进行话题检测.实验表明,G-BTD方法在英文LiveJournal博客和中文新浪微博两个文本集中的突发话题检测效果优于概率话题模型LDA和基于突发特征的EGF的方法.