论文部分内容阅读
伴随着社交媒体的快速发展,微博类应用已经成为传统媒体以外的一个重要的信息来源。如何及时且准确地从微博数据流中发现突发事件信息,已成为数据挖掘领域近些年来的研究热点之一。为了从海量噪声数据中过滤出稀疏的事件信号,学术界提出了很多方案来描述和检测突发特征,并对这些特征进行聚类以得到完整的事件信息。然而,在实时更新的微博流场景中,需要以有限的时空开销来生成事件信息,所以传统的静态聚类方案不能满足需求。本文针对这一问题,提出用突发特征网络中的社区结构来描述事件,且以历史事件为基础生成最新事件的信息,旨在减少实时检测突发事件的时空开销,并提高事件发现的准确度。本文的主要内容和贡献如下:第一,提出了一个面向带权网络的自适应社区检测算法。该算法基于无权动态网络下的QCA社区检测算法,采用了模块度局部优化的思路。在带权网络出现动态变化的情况下,该算法能够对历史的社区结构进行自适应调整。基于作用力的概念,可以分析得知网络变化对于结点移动趋势的全局影响,从而避免了不必要的网络调整开销。在此基础上,再以模块度优化为目标,对不稳定的社区结构进行局部调整。第二,提出采用带权网络模型对突发单词的重要性和共现性建模,并以词图网络中的社区结构来描述事件信息。此外,本文基于带权网络提出了权重强度的概念,以描述网络中局部子图的重要性,并据此推导出带权网络下的模块度度量公式。第三,提出了一个微博突发事件在线检测系统的实现方案。该方案采用特征优先的策略,结合预处理和突发性估计的结果来构建带权词图模型,应用自适应社区检测算法来发现单词网络中的事件信息。通过实验可以证明,利用该系统方案能够快速且准确地发现突发事件。