论文部分内容阅读
随着网络信息技术的快速发展与进步,论坛、微博等新兴媒体已经成为人们获取信息的主要渠道。尤其是近些年来,微博凭借其便捷性以及独特且强大的传播机制,得到了用户的广泛参与,并迅速发展成为基于用户关系的信息分享、传播及获取平台。其中,微博话题就是一种重要的用户参与方式。它根据微博热点、个人兴趣、网友讨论等多种渠道的内容,经过话题主持人补充修饰和加以编辑的,与某个话题词有关的专题页面。微博用户可以进入该页面发表微博进行讨论,同时话题页面也会自动收录含有该话题词的相关微博。微博话题是反映用户个人偏好、发现用户行为习惯的一种重要途径,所以,微博话题演化的追踪在用户兴趣发现、谣言检测、舆情追踪等多个领域都具有重要的研究价值。因此,如何从微博中获取话题并对话题演化进行追踪成为迫切需要解决的问题。但微博话题的追踪具有固有的难点。其中,它文本较短,词频较低给话题检测带(?)很大的困难;其次,在话题对齐、话题相似度度量、话题强度度量等诸多问题为在时间序列上,对微博话题进行话题演化的追踪带来了诸多挑战。因此,为了解决上述问题,我们拟采用下面的方法:首先,本文引入Biterm T eModel(简称BTM)来处理微博数据。BTM是一个话题分析的聚类模型,它(?)处理短文本的话题分类具有优势;其次,为了实现话题演化的追踪,本文引入在线LDA 模型(Online Latent Dirichlet Allocation,简称 OLDA)中演化矩阵的概念,对BTM进行扩展得到在线BTM(简称OBTM);然后,使用OBTM对时间片上的文本进行建模,从而获取话题。最后,使用演化矩阵对话题演化进行分析,并通过Jensen-Shannon散度和讨论度两个指标对话题相似度和强度进行度量。实验证明,本文提出的OBTM对微博话题的演化追踪方面,具有高效性和准确性。