论文部分内容阅读
信息时代,公民更多的参与到网络媒体中,产生出大量舆论,部分舆论需要进行检测、监控,以辅助相关部门决策,发扬积极舆论,引导消极舆论.面向网络舆情分析领域的应用,本文研究了系统聚类、String Kernels、K最近邻算法、SVM算法以及主题模型等五种聚类算法,以网络舆情数据为数据对象集,以R语言环境中为实验工具,对五种聚类算法进行了全面的对比研究,同时进行了仿真实验,比较了这五种算法在网络舆情文本知识发现领域应用中的优势与劣势.实验结果表明,在网络舆情文本知识发现领域"主题模型"相对于其他算法在文本聚类方面具有更好的适用性.经进一步的实验还发现,在主题模型中CTM方法更适合于类别关系的探索与发现,而Gibbs抽样方法在文本聚类上的表现则优于CTM方法.本课题研究结果对于网络舆情文本知识发现中的文本聚类算法选择有重要价值.