论文部分内容阅读
新浪微博目前是国内最大的微博服务平台,微博流中包含着数量众多的,各个领域的新闻事件。目前新浪上有各种各样的带标签的话题事件,已有很多的研究针对于微博上的话题检测,但很少有专门针对特定话题进行研究的。一些热点事件,起源于微博,在社会上引起了巨大的轰动,作为新闻媒体或者事件相关的公关团队,更是极为关注该事件的走向,因此针对目标话题的检测与演化分析具有很好的市场需求。话题分为多种类别,包括突发事件,热点事件等等,通过对现有的微博话题检测方法进行分析,发现目前基于微博上的话题检测很少是有目标性的检测,并且要么检测类别单一,要么无法区分所检测事件类别。本文在总结了前人工作的基础上,主要针对上述问题,从以下几个方面进行研究:第一,我们介绍了微博内容的特点,结合微博的话题标签及关联规则挖掘方法,研究了如何针对特定目标话题进行话题检测与跟踪演化分析。第二,考虑到话题可以分为多种类别(突发事件、热点事件、消逝的事件等),我们借鉴了关联规则在商场顾客购物习惯上的应用方法,分析了微博话题标签在微博中的作用,从微博的话题标签入手,修改并提出了关于关联规则的4种演化模式,即新规则、热点事件规则、变化中的规则、消逝的规则等,从而达到同时检测多种类别话题,并明确其各自所属类别的目的,以便为后续的话题演化分析提供支持。第三,针对目标话题的演化进行跟踪。将我们话题检测中所用到方法直接运用于演化分析中,利用关联规则的4种演化模式对目标话题进行演化分析。采用一种方法同时完成话题的检测与演化分析的任务,一定程度上降低了话题检测与演化分析链接的复杂度。第四,将现有的应用到微博话题检测上的方法应用到我们的场景中,并与我们的方法进行对比,对各种方法的结果分析进行了探讨。本文实验结果证明了以下几点:第一,我们的方法可以有效的对特定目标话题进行检测与演化分析。第二,论文中所采用的方法可以同时检测不同类别的话题,并明确其所属类别。第三,本论文中的方法可以同时用于微博的话题检测与演化分析。