论文部分内容阅读
微博是一种基于相关关系、信息共享、传播和注册用户获取信息的移动信息平台。微博传播的速度和形式与电视新闻、报纸等传统的媒介传播方式都大不相同,微博更为简单、迅速、快捷、清晰地表述了事件的整个过程。截至2019年3月,微博活跃注册用户已远比同季度社交网络平台用户多。转发微博是信息在微博传播的主要途径之一。对微博转发进行预测在信息推荐、广告信息精准投放、突发事件预警等方向有重大作用。针对基于用户兴趣特征的文本分类问题应用TF-IDF算法融合LDA主题模型的方法来解决,TF-IDF算法用来提取一篇文章或者文本中单词的重要程度,将不重要的单词加入到停用词中。在一篇文章或文本中一些不重要的但是出现次数特别多的词汇比如“的、地”等这些词会直接影响对词的分析,通过IDF算法在语料库中出现次数虽然非常多但是会使词语重要度降低。TF的值越大代表在文章中该词出现频率越大,证明词越能代表文章主旨,IDF值越小说明在待研究语料库中总个数越少,证明词越重要以此筛选出真正的高频并且能代表文章主旨的词。本文将应用TF-IDF算法融合LDA主题模型。用TF-IDF算法提取的停用词融入到LDA主题判定模型中来提取单词序列。这样可以确保在词语矩阵中提取出的主题可以准确的代表整篇文章。针对提高微博转发准确率问题提出了融合用户兴趣特征的在线被动攻击算法(PA算法)来解决,在线被动攻击算法用来研究在线数据,以往的研究认为用户的兴趣是固定的,不变化的,实际上用户的兴趣在一定时间内会发生改变的。本文改进传统的PA算法加入用户的兴趣变化,多因素分析用户是否对微博进行转发。PA算法认为微博信息以及用户兴趣是个连续、变化的序列,每个序列中信息是否被转发需要预测,在预测结束后,用户是否会转发的结果会出现,算法会出现瞬时损失率来反映预测的失误率,并利用待研究的新属性以及待研究数据,对已采用的规则进行更新,利用新规则进行新的分析。预测算法是在预测模型中输入微博兴趣特征,用户属性包括用户关注数、微博数等和微博属性包括发布时间、博文内容,将PA算法初始化,用融合兴趣特征的改进在线被动攻击算法进行训练用来调整权重使得微博转发预测准确率达到最高。实验数据为例,利用Python爬取新华视点博主发布的即时新闻为后续实验提供数据。本文通过爬取此微博博主在2019.1.1-2019.3.25近三个月的微博以及其600万注册粉丝的近三个月微博新闻信息为依据。由于微博数据过于庞大且存在很多无意义的微博用户,需要尽量去除掉那些具有水军可能性的微博粉丝数低于50的部分用户。本文主要研究互动率排名靠前以及会对转发内容进行二次影响的用户即转发的微博对该博主的粉丝看见并转发。