论文部分内容阅读
随着Twitter等社交网络应用的迅速发展,越来越多的用户在上面发布实时信息、更新个人状态、表达自己的观点想法等。Twitter上的事件检测逐渐成为一个热门的研究话题,吸引了越来越多学者的关注。虽然Twitter上的数据相对于传统的新闻媒体、网络博客等数据有更新实时、覆盖范围广、用户参与度高等优点,但是Tweets数据的单条信息量少、噪音大、更新频繁、总数据量大等特点也给事件检测带来了很大的挑战。本文提出一种基于主题模型的Twitter事件检测算法GEAM(General and Event-related Aspects Model),该模型通过模拟一条与现实事件相关的Tweet的生成过程将Tweet中描述事件相关方面的词项(Event-related Aspects words)和与事件无关的常用词项(General words)区分开来。同时,我们也提出CollapsedGibbsSampling算法对GEAM模型进行估计和推理,以得到描述不同事件的词项分布。此外,我们还提出了GEAM模型的在线式变形算法,实时检测连续的Tweets数据流中产生的事件并且追踪该事件的演化过程。本文设计了一系列的实验用以评估GEAM模型的有效性。大规模真实Tweets数据集(超过6百万条Tweets)上的实验表明,GEAM模型在查准率(Precision),查全率(Recall)和重复事件检测率(DERate)都优于传统LDA主题模型。GEAM模型采用(时间,地点,实体,关键词)四元组的形式表示事件的细粒度信息,使得事件检测结果的语义更为清晰。此外,实验部分还展示了在线式GEAM模型追踪事件演变过程的能力。