论文部分内容阅读
最近几年,微博由于其便捷性与开放性,迅速成为信息传播的主力军。为了把握网络舆情动向,快速响应突发网络舆情事件,如何从海量的微博文本流中准确快速地检测出趋势话题也成为当前研究的一个难点和热点问题。本文针对基于主题模型的微博趋势话题检测技术展开了研究。首先,分析并总结了现有基于主题模型趋势话题检测方法的优缺点和存在的问题。主题模型的研究以LDA主题模型为代表,分为离线和在线模式。一方面,在两种模式下,LDA主题模型都能够识别出语料库中潜藏的主题信息,但是主题个数都需要人为预先设定合适的值才能使主题模型具有最佳的话题区分能力,所以主题个数的自动确定是基于主题模型趋势话题检测一个待解决的重要问题;另一方面,在线模式下,由于将每条微博看作是一系列话题的混合分布,每次更新主题模型时文档-话题分布的先验概率需要重新初始化,合适的先验概率可以使主题模型在采样时具有更快的收敛速度,所以快速有效的更新策略是基于主题模型趋势话题检测另一个关键问题。其次,针对LDA主题模型中主题个数需要预先设定的问题,提出了一个基于Labeled-LDA主题模型的离线检测方法。所提出的方法先通过趋势得分计算方法提取出趋势关键词及其爆发时间窗口,然后以趋势关键词来检索在爆发时间窗口内的相关微博文本组建文档,并根据时间窗口为组建的文档设置标签,标签总个数即为估算的主题个数;经过话题合并后即得到检测的趋势话题。评估实验表明基于Labeled-LDA主题模型,在混淆度方面比传统的LDA主题模型低,即更具有区分话题的能力;而在准确率、召回率和F-measure上都优于传统的LDA主题模型。最后,针对LDA主题模型在线模式中,每次更新主题模型时文档-话题分布的先验概率需要重新初始化的问题,提出了一个基于Labeled-LDA主题模型的在线检测方法。在离线检测方法的基础上,所提出的方法从语义层面考虑同一时间窗口出现多个话题的情况,并以前一时间窗口文档-话题分布的后验概率来初始化当前时间窗口的先验概率作为更新策略。评估实验结果表明基于Labeled-LDA主题模型的在线检测方法,在混淆度方面与离线检测方法持平,而在运行时间上比传统的在线LDA模型减少F-measure了34.64%。本文在微博趋势话题检测领域,重点研究了主题个数的自动估算和主题模型快速有效的更新策略,不仅提高了基于的趋势话题检测模型区分话题的能力、准Labeled-LDA确率和召回率;而且使模型能够胜任在线检测的任务。