论文部分内容阅读
近年来,微博得到了飞速地发展。用户可以在微博中进行交友、聊天、发布状态,同时还可以发起话题,评论话题等。分析和挖掘微博的热门话题具有重要的意义。目前微博话题挖掘通常采用基于文本的挖掘方法。微博里的文本信息多是短文本,具有数据稀疏、噪声大的特点,给分析带来了一定的困难。微博是一种基于关系而存在的社会媒体,关系密切的用户往往关注的是相似的话题。纯粹地从文本分析的角度去研究微博话题,效果并不理想。因此本文从微博话题的关系角度入手,提出了一种微博话题的关系网络模型对微博话题进行挖掘。本文使用该微博话题关系网络模型实现了基于关系网络的微博话题挖掘系统,并取得了一定的效果。本文提出了基于关系网络的微博话题表示方法。通过对微博话题进行分析,发现话题在用户之间进行扩散的过程中,用户是有状态的,并且这些状态会发生改变。导致用户状态改变的原因是用户对微博进行了操作,用户的操作还使用户之间产生了关系,微博话题关系网络正是根据这些关系被提出的。在微博话题关系网络中,网络的节点表示用户,网络的边表示用户之间在话题中存在的某种关系。本文同时给出了微博话题关系网络详细的构建规则。在构建话题关系网络后,对关系网络进行了分析,包括网络中的介度中心数、紧密中心度以及网络聚类系数等,并且发现微博话题的关系网络中存在着某种结构特性。本文提出了一种基于关系网络的微博话题挖掘方法,并针对四个新浪微博的真实话题进行了微博话题的挖掘。这些话题分别是“北京高考改革”、“跨省就医报销”、“养老金”和“延长缴费年限”。在对微博话题进行挖掘的实验中还使用了目前研究人员使用的基于文本的微博话题挖掘方法,并将两种方法的挖掘结果做了对比。实验结果表明基于微博话题关系网络的微博话题挖掘方法比基于文本的挖掘方法F值高10%。本文提出了一种基于高斯随机数的可视化显示策略,并运用这种策略将微博话题的挖掘结果进行了可视化。基于关系网络的微博话题挖掘方法和基于高斯随机数的可视化显示策略已经成功应用到基于关系网络的微博话题挖掘系统当中。