论文部分内容阅读
随着技术的不断发展,互联网上涌现出了许多社交媒体,比如微博,Twitter等社交网站,越来越多的人参与其中,获取实时的在线信息。微博作为一个大众的社交工具,人们在上面不断发布消息,获取热门话题。微博上的主题标签作为一个用户自发打下的标签,表达了用户真实想法,对于捕捉用户兴趣和关注有极大作用。但是目前对于主题标签流行度预测的研究还是比较少,大部分都是基于微博消息的研究,同时主题标签的流行度反映了当下的社会群体的关注点,表述了网民对于事件的关注程度,本文从微博的实际场景出发,根据主题标签的自身特性进行相关研究,构建主题标签的流行度预测模型,关注其未来趋势,对于发现热门话题十分重要。 一方面,现有基于特征的主题标签流行度预测算法没有考虑用户粉丝之间的网络结构信息以及主题标签自身的特性。鉴于此,本文对用户网络结构信息和主题标签的情感性,地域性等信息进行特征分析,提出了一种考虑用户粉丝网络结构特征以及主题标签自身特性的流行度预测模型。实验证明,新提出的特征是有效的,对以后主题标签的流行度预测具有较高的参考价值。 另一方面,传统的消息预测模型是单源问题,每一个消息都是由一个个体发出然后进行转发传播。但是相同的主题标签可以由不同的个体从不同的时刻发出,为了处理多源主题标签流行度预测问题,本文提出了一种基于微观角度的主题标签流行度预测算法,首先构建每个源头的主题标签传播机制,然后使用注意力机制刻画每个源头的重要性,从而得到全局的表达。实验证明该模型的有效性,同时为以后多源问题的解决提供了思路。 最后,依据基于特征的主题标签流行度预测算法,本文设计并实现了一个事件热度预测系统,包含微博数据采集、任务下发和事件流行度预测等模块。该系统能够自动发现事件,尤其是可以根据事件的流行度来评估网民关注的话题,在网络舆情分析等领域具有较高的应用价值。