论文部分内容阅读
网络的发展带来了前所未有的技术革新,而作为一种社交媒体,网络论坛正在成为人们日常交流的重要工具。在网络论坛中,用户通过自己的账户发布和回复信息。一个论坛常常涉及各个方面,诸如文化,体育,政治等等。许多参与度极高的论坛不仅成为了参与用户针对各个问题的发布个人观点的平台,同时也成为了解民意的重要平台,因为各个敏感事件也往往是首先出现在论坛中。然而,如何在网络论坛中追踪动态变化的主题,掌握论坛文档的主要内容,从而更好的更及时的监控与跟踪敏感话题,正在变成一个极具挑战性的问题。同时作为网络论坛的用户,每当浏览网络论坛各个文档的时候,用户往往会为数量众多而冗余度极高的各种帖子所迷惑,从而降低了阅读效率和质量。如何帮助用户快速的理解网络论坛文档的内容,也成为一项富有意义的工作。随着主题模型的提出,近年来,国内外针对网络中出现的主题追踪有了一系列的成果,但是针对诸如网络论坛这种结构复杂的社交媒体中的短文档流,则-直缺乏很好的研究成果。其原因在于论坛文档中容易出现主题依赖,主题漂移的现象。同时由于论坛帖子是短文档,用户的发帖往往并不注意语法,修辞与拼写,这样就导致了这些短文本的语义稀疏性特点。本文针对论坛文档由于自身特点缺乏有效的文档摘要方法的现状,提出一种基于LDA主题模型的动态主题模型:回帖传播模型(Post Propagation Model)。本文在主题建模中考虑了Web论坛文档中帖子和帖子之间的回复关系并把主题的分布变为随文档变化而变化的一个动态过程,来解决主题的依赖和偏移问题。为了更精确的推导模型中出现的参数,本文使用Gibbs EM采样算法来确定动态主题模型的参数,从而推导出网络论坛中动态主题在各个不同事件段的分布情况。为了使用户能更迅速的理解每一篇论坛文档中的主要内容,基于回帖传播模型,本文提出了三种论坛文档摘要方法。通过计算句子中主题权重的之和来确定各个主题的重要程度;最后根据动态主题模型中主题的概率分布计算各句子的权重并得到文档的摘要。为了优化实验效果,本文在此基础上引入了马尔科夫随机游走模型,并通过主题敏感的排序过程,来重新为文档中的句子赋值来生成摘要。由于缺乏相应的公开实验数据集,本文中作者从目前用户参与度很高的两个论坛中爬取了400篇文档的数据,建立了自己的实验数据集。本文首先检测了主题模型在数据集上的主题建模结果,尤其是针对同一主题在不同时间段的变化。实验结果表明本文所建立的回帖传播模型(Post Propagation Model)具有比LDA等静态主题模型更敏感的主题检测功能。针对网络论坛的摘要,我们对从热门网络论坛总爬取的数据集进行了人工摘要,并引入了在文档摘要技术中被广泛使用的ROUGE评测方法。实验结果表明新方法在各个ROUGE评测标准上均优于其他各种对比的baseline摘要方法。