论文部分内容阅读
随着信息时代的到来,网络上的信息资讯呈现爆发式增长。其中,微博以其交互性、实时性、原创性等特点迅速成为信息资讯传播的重要平台。在社会热点事件发生和传播的过程中,微博等线上平台也迅速产生了大量热点话题。为了帮助用户从海量微博信息中快速了解话题的来龙去脉,进行便捷高效的话题信息获取,本文对微博话题发现技术和微博话题技术进行了深入的分析和研究,提出了一种基于自适应在线主题建模的微博话题发现算法和一种基于图排序的微博话题算法,用以发现微博话题及其演化并生成话题。 本文提出的自适应在线主题建模算法采用在线潜在狄利克雷分配主题建模发现微博话题,并根据微博特征做了扩展:首先利用微博的半结构化信息,合并具有相似主题的微博,缓解了短文本数据稀疏问题;然后基于话题热度冷却模型,自适应地设置当前时间窗口主题建模的先验参数。通过上述算法实现了不同时间窗口的主题对齐,帮助发现话题及其演化。 本文提出的基于图排序的微博话题算法,在基于图排序的多文档算法基础上,根据微博特征做了扩展:根据微博关系特征扩展了建图过程以生成微博概括度;根据微博话题特点提出融合微博概括度、主题相关度、热门度的微博评分模型;通过上述算法得到微博评分帮助生成话题。 最后,本文设计了详细的实验。实验结果表明,本文提出的微博话题发现算法和话题算法在新浪微博数据集上取得了较好的效果,微博话题发现算法能够有效发现微博话题及其演化趋势,微博话题算法能够提供简洁明了的话题。