论文部分内容阅读
突发话题检测是指从海量文本数据中提取随时间发展迅速的话题。该问题涉及到突发特征检测,话题模型构建和话题演进分析等多个方面。针对不同的数据,分析方法各异。本文重点对英文新闻标题数据进行分析。新闻标题词汇量大,长度小,变化性强,在特征空间中分布稀疏。这些特征给突发话题检测带来巨大挑战。本文主要对新闻标题流中的突发话题检测进行了如下研究:(1)突发特征置信度优化研究。Kleinberg的二状态自动机方法是应用最广的突发特征检测方法。其可以使用不同的解析度参数对不同强度的突发特征进行检测。本文对其进行深入研究,提出了一个解析度参数估算方法,能够使检测出的突发特征置信度最大。通过自动调整解析度参数,能够使模型自适应于不同的主题词,从而避免了手动调整参数的麻烦。实验证明,该方法能够快速为不同突发词估计最佳的解析度,并使突发特征置信度和突发时间段逼近最优值。(2)突发特征鲁棒性改进研究。在新闻标题流中,突发事件和平凡事件的分布是不均匀的。众多平凡事件会对突发特征检测产生影响,形成噪声特征。另一方面,大多数突发特征检测算法对平凡事件的鲁棒性不高。为了去除噪声,本文提出了一个几乎可应用于所有突发特征检测算法的噪声去除算法。该算法借鉴了最大熵思想,并对最大熵的鲁棒性进行了改进,使得在突发事件和平凡事件分布不均的条件下,依然可以很好的去除噪声特征。实验证明,该算法能够在保留突发特征的前提下有效去除噪声特征,进而提高突发特征的鲁棒性。(3)突发话题的静态结构研究。本文针对新闻标题长度短、词频低的特点,提出了一个层次聚类算法,来找到标题集中有意义的词语共现信息,并将其归纳为一个词语共现树。通过分析发现,突发话题在词语共现树中会有明显的特征,本文称之为省略引述特征。通过寻找词语共现树中的省略引述特征,可以发现其中存在的突发话题。整个过程全部是基于对新闻标题的静态分析,而没有考虑标题的发布时间。为了实现如上分析,本文首先提出了一个词语权重度量方法,从而对词语描述标题含义的能力进行评价。然后依据这种描述能力将标题聚类成簇。进而对簇中标题集采用相同方法进行聚类,如此迭代形成一颗词语共现树。该树中的省略引述特征就是描述文本集中突发话题的特征。实验证明,本文提出的聚类算法可以有效降低新闻标题分布的稀疏性和表示维度,所得到的聚类中心可以很好的表示数据集中的新闻话题。最后,通过与维基百科中真实事件作对比,本文基于省略引述特征的突发话题检测方法可以覆盖大部分维基百科中的事件,所检测出的词语共现特征可以较好的描述现实中的突发话题。(4)突发话题动态结构研究。传统的突发特征检测方法大都对词频随时间的变化进行建模,而没有对词语共现信息随时间的变化进行建模。本文发现,描述突发话题的词语共现信息通常在时间上有相似的部分,通过对其进行建模,可以找到在时间上具有承上启下现象的词语共现特征,也即突发话题。具体地,本文对每个标题进行随机游走排序。提出了一个基于半随机游走的动态主题模型,通过对模型中起到承上启下作用的词语共现信息进行推理,可以获得一条随时间变化的话题演进序列,进而找到突发话题。实验证明,本文算法能够灵敏的捕捉到词语共现模式随时间的变化规律,相比于基于词频的方法,本文算法可以检测出更多突发话题,并且能够更加精确的定位突发话题真实的发生时间。