论文部分内容阅读
时至今日微博已经成为人们生活服务和娱乐休闲信息分享和交流的主要平台。通过从海量微博数据中快速有效的聚类提取出相关的政治、社会、民生、医疗等有价值的微博热点信息,对于广大微博用户、政府机关以及企业,更加有效地关注舆情的发展态势,进一步对舆论引导和对事态的把控具有重要意义。然而,随着微博数据和用户信息的爆炸式增长,用户要在海量的微博信息中找到感兴趣的热点话题越来越困难。因此,微博热点信息的聚类提取系统也成为微博平台上不可或缺的模块之一。本研究从实际应用的角度出发,主要解决的问题是如何高效、快速、准确地从微博文本库中聚类提取出用户感兴趣的热点信息,以满足用户的需求。本论文的主要研究工作有:1.本文对微博文本信息特征以及微博的交互性特点和特有架构进行了分析和研究,并且根据微博发表的时间,提出了微博随着发表的时间衰减度算法。2.对主题概率模型的思想进行了分析与研究,并且基于概率主题模型LDA的概率主题计算公式提取出概率主题集合,进行系统建模,同时将TF-IDF算法、及改进算法和余弦系数相似度算法,应用到微博热点信息的聚类提取计算中去,实现了微博热点词元和热点话题的提取。3.通过将发表该条微博的用户在当前时刻的总关注人数和某个话题在各条微博中的出现概率值乘积的计算结果作为该话题的热度值,同时借鉴了一种有效的关联度算法,将热点词元和热点话题进行关联。将最终的关联结果推荐给用户。4.详细地研究了Hadoop云计算平台的关键技术,通过基于Hadoop云计算平台进行仿真实验,将实验提取出的微博热点话题结果应用准确率、召回率以及F1值等评价标准对进行了验证,证明了算法的有效性。同时,实验结果表明在hadoop平台下可以有效的解决处理海量微博数据的性能瓶颈问题,充分利用分布式并行及虚拟化技术的优势,显著提升运算效率。