论文部分内容阅读
针对传统的网络话题检测方法在文本特征表示方面的不足及K-nleans聚类算法面临的问题,提出了一种基于命名实体的网络话题K-means动态检测方法.该方法对传统话题检测的特征表示方法进行了改进,用命名实体和文本特征词相结合表示文本特征,用命名实体对文本表示的贡献大小表示命名实体的权重;另外,利用自适应技术对K-means聚类算法中的K值进行自收敛,对K-means聚类算法进行了优化,利用K值的动态选取来实现网络话题的动态检测.实验结果表明,该方法较好地区分了相似话题,有效提高了话题检测的性能.