论文部分内容阅读
微博是继博客之后迅速发展起来的一种新兴网络社交平台,作为新兴的媒介,在中国社交网络中占据着主要地位。它以“碎片化”的信息渗透到社会生活的各个领域,掀起了中国社会信息传播的微博热。在微博发展过程中逐渐形成了不同专业、兴趣的微博社区,这些社区是非常重要的组成部分,不仅能为用户提供可靠的、有价值的和及时的信息,方便用户交友,还能为商业和传媒带来新的传播方式。如何能发现微博中社区显得至关重要。社区发现主要以社区的方式把网络划分为若干群组,以加速微博用户自发聚集从而形成社区的过程。传统社区发现算法主要通过分析页面的链接结构和页面内容,基于分层的方法来划分社区,社区结构通常是树形的。但随着互联网技术的发展,基于单一特征的传统社区发现算法不再适用于新的社交网站。近年来,随着图论及数据挖掘技术的发展,很多分类聚类的方法也被用于Web社区发现,许多针对特定的社交工具,如博客等。基于以上背景,本文在总结已有Web社区发现技术的基础上,引入社会网络分析方法,并综合考虑微博用户的主题和链接关系,提出了一种基于社会网络分析的微博社区发现方法。首先,论文分析了微博的结构和特点。微博和其他社交工具最大的不同在于采用了全新的"following"社交模式,并且博文“碎片化”,这些机制更能促进交友和交流。其次,根据微博属性和社区特征对微博建模。研究表明,新浪微博社区满足“小世界”效应,存在幂律分布,用户之间包含主题同质性和链接关系,符合社会网络模型的特征。因此,论文选用社会网络模型对社区建模。再次,设计实现了基于主题与链接分析的微博社区发现算法。标签传递算法是一种半监督的分类算法,执行速度快,运算量小,但在计算节点间边的权重时未考虑节点紧密度,影响了划分精度。本文分析了微博用户的链接关系和博文主题相似性,通过对链接相关度和主题相关度推导出用户总相关度公式,以此作为边的权值来计算节点间的传递概率,然后运用改进的标签传递算法对社区分类。最后,利用社会网络分析方法对划分的社区进行定性和定量的分析。利用"Pajek"社会网络分析工具分析社区中的各个参数,然后对其仿真,进行可视化,进而得到对社区理性和直观上的认识。