论文部分内容阅读
新浪微博在我们日常生活的信息传播中起到了重要的作用,截止2014年新浪微博的每日活跃人数已经达到了6660万。而新浪微博公共平台一般拥有过万的粉丝数,他们的影响力及其大,因此对于新闻的监管就变得十分的困难,如何实时从成千上万的微博中找到热门的微博是十分有意义的。它可以帮助人们实时的了解社会动态,使一些政府机构提前对一些负面的情绪加以引导,从而使得社会更加的稳定。在当前微博发展的趋势下,学者们对微博的研究也越来越重视,最近几年对微博的热门话题发现、微博的舆情分析都是研究的热门。本论文主要构建了一个微博公共平台实时的监管系统,用来预测将来可能会成为热门话题的微博。本论文主要对新浪微博的各大新闻公共平台进行数据采集,然后对这些数据进行分析,通过这样的分析本文构建了预测模型。通过计算每条微博的转发、评论的增长趋势,从而预测出该条微博在当前的热门程度。并且通过聚类算法找出与该微博相关的一些微博。本论文的主要贡献如下:(1) 通过新浪微博api接口实时收集微博数据,本文通过使用新浪微博api接口每十分钟收集一次新浪微博的数据,然后对这些微博进行分析,找到影响微博趋势的因素,通过这样的分析发现微博的评论、转发增长数会随着时间的推移呈现凹曲线下降的趋势。(2) 本论文构建了一个预测模型,该模型由微博的长期趋势、循环趋势、作者影响力、微博前十分钟的评论数和转发数几个因素组成。通过该模型可以计算出一条微博的评论数和转发数在未来的趋势,然后本文给出了热门程度公式,通过这个公式可以计算一条微博的热门程度。(3) 本论文改进了k-means聚类算法,该算法通过输入一个聚类中心并且设置一个阈值来找到距离聚类中心在这个阂值内的文本。通过这样的算法可以找到与热门微博相关的一些微博。