论文部分内容阅读
随着互联网的发展,微博已经发展为人们交流、共享信息的重要平台。微博用户通过发布、关注、转发和评论等行为,促进了信息的传播。微博用户自身的行为不仅影响了消息的传播,而且也影响了消息的传播方向。为了快速检测信息传播,避免恶意信息造成较大影响,及时的检测到热点事件或恶意信息的传播范围,对保障社会的安定有重大意义。本文以分析微博用户行为基础,研究信息传播途径为背景,针对微博高维稀疏的特点,研究微博用户行为特征的获取、信息传播路径中较大影响力的k个用户节点,旨在建立用户行为特征模型,从而快速获得信息传播途径。本文主要研究如下:(1)为了尽可能地去除微博短文本中包含的大量噪声数据,对微博内容的成分进行分析,去掉文本中大量的无关信息,并通过简繁转换、分词和去停用词方法尽可能地得到无噪声数据。(2)根据微博用户行为(发布、关注、转发和评论等)和微博内容,提出一种融合用户行为和内容的微博用户影响力方法。通过对微博用户行为(发布、关注、转发和评论等)的分析,得到行为数据,进而计算出用户影响力的权值。利用微博用户内容建立词共现矩阵,继而运用LDA(Latent Dirichlet Allocation)模型进行潜在主题的识别,通过KL(Kullback Leibler)散度的方法得到用户之间的相似性,最后结合用户影响力权值,得到用户的影响力。实验表明,此算法较为有效。(3)提出了融合用户内容与关系结构的用户影响力算法。通过微博的关注和被关注行为,建立用户关系结构。结合用户微博内容和关系结构的联系,提出了一种融合用户内容与关系结构的用户影响力算法。该方法首先建立用户的词-文档矩阵和用户关系结构,通过词语间的互信息,初始化词语间的相似性,然后迭代计算词-用户文档的相似性,通过用户影响力权值的加权,得到用户的影响力邻接矩阵。实验表明,提取和观察k个较大影响力的节点用户,能够快速的检测到微博信息的传播情况。在以上三点上进行微博用户影响力的研究,实验证明了其有效性。