论文部分内容阅读
随着互联网技术的飞速发展,越来越多的网民倾向于在社交平台如Facebook、新浪微博、腾讯微博和人人网等上建立自己的交际圈。在微博中,当某个用户发布了一篇微博帖子,其它用户可能转发他的帖子,这个转发过程就会使得信息的快速传播与扩散。有益的信息能给社会带来积极的影响,不良的信息则会造成病毒式传播,最后导致舆情的产生,给社会带来危害。研究微博用户转发行为,分析其传播规律,可以提前预测某条微博传播结果,这对研究网络舆情、广告投放、商业决策等具有重要意义。通过对微博用户在社交网络中的转发行为规律研究和分析,本文提出了全面又新奇的方法,其中包括影响微博转发的特征体系构建、基于Filter和Wrapper的特征筛选模型和基于集成学习的微博转发预测模型。针对主流方法考虑的转发因素比较单一的缺点,本文提出了影响微博转发的特征体系构建方法。考虑到用户的兴趣随着时间是不断变化的,针对这一问题,本文提出了基于兴趣漂移的LDA主题模型;考虑到地理位置与用户转发行为存在密切关系,本文提出了基于地理位置相似度;在以往的研究中,研究者很少考虑用户间的网络结构和用户交互行为,本文提出了用户聚集系数特征、用户间邻里重叠度特征和用户转发影响力等特征。根据这些特征具有的属性,本文将这些特征分为四大类:用户特征、微博特征、网络结构特征和交互行为特征。根据特征取值类型的不同,可以将其分为离散型和连续型,由于各特征的取值大小差异非常大,为了缩小这种差异,本文利用最大最小归一化方法将所有特征取值映射到[0,1]。针对现有研究所提出的特征具有盲目性,本文提出了一套较为完整的基于filler和wrapper特征筛选模型,因为冗余无效的特征不仅会给模型带来维度灾难还可能反而降低模型预测的精度。特征筛选步骤如下:(1)方差分析:对每个特征的取值进行方差分析,如果方差值越小,则说明该特征提供的信息就越少,那么这个特征对于样本的区分能力非常小,应该将其删除。(2)相关性分析:即该特征与微博是否转发的相关性分析,根据特征取值类型不同本文分别使用对应的相关性分析。对于特征值为离散型的,本文使用卡方检验;对于特征值为连续型的,本文使用点二列相关性分析。根据设定的显著性水平,删除小于本文设定阈值对应的特征。(3)Wrapper特征组合分析:由于各特征之间可能存在强烈的相关性,那么也会造成特征的冗余。针对该问题,本文使用LVW算法对特征组合进行分析,最后得到了最优的特征组合。在以往的微博转发预测模型中,大多数使用的是传统的分类模型,本文使用集成学习方法建立了微博转发预测模型,实验表明,该方法具有较高的正确率和召回率。本文针对不同主题的微博进行了转发预测分析,发现微博主题为政治军事类的预测效果最好。同时本文还分析了不同类别的微博用户在微博网络中对转发行为的影响,发现具有较大影响力的用户会发布大量的原始微博帖子,然而普通用户更加倾向于转发微博,特别是官方用户几乎不转发他人微博。