论文部分内容阅读
计算机网络技术迅猛发展,开始深刻地改变着人们的生活方式。尤其是web2.0时代以来,社交网站和社交网络服务蓬勃发展,如国外的Facebook、LinkedIn,twitter,国内的各大主流微博客等。人们通过这些网站和服务与网络中的朋友发生交互,建立了人与人之间的联系,这种联系、交互构成了社交网络。社交网络具有一个重要的结构特点----“社区结构”,其作为社交网络的一个子集,社区内节点之间关联密切,不同社区的节点间关联稀疏。网络中同一个社区内的节点可能具有共同的性质,并且(或者)在网络内扮演类似的角色。社区结构的发现不仅有助于理解网络的功能、识别网络内部的连接层次,而且,它对于理解社交网络上复杂的用户行为及群体行为有着极其重要的基础性作用。因此,对社区结构的研究具有重要的理论与实际意义。本研究主要内容包括: ⑴社交网络中用户的属性信息,如年龄、地址、毕业院校、感兴趣内容、话题标签等,这些都给纯结构网络上的社区发现方法带来了新的技术挑战。基于社会学结论,即同一社区的成员之间属性具有更高的相似性,我们提出了一种结合节点属性熵的社区发现方法。在同质性理论和“核心—边缘”结构等理论支持下,提出通过节点的属性相似度定义社区属性熵,同一个社区内节点越相似则社区属性熵越小。一个好的社区划分应该在保证社区结构链接紧密的情况下,网络划分的社区属性熵最小。利用蒙特卡罗方法和社区结构的局部特性可以有效降低算法的复杂性。无参数设置使得算法更加适用于实际网络上的社区发现。 ⑵在线社交网络数据中具有丰富的用户交互信息,如:用户发表的大量文本内容、用户之间相互评论、提及等行为信息。这些信息的利用可以使得社区发现获得具有更多社会价值的群体。个体之间结构上关联、行为上相近是社区成员的本质特征。基于这样的假设,将社交网络上属性信息和交互信息抽象为上下文特征,认为特定社交圈的形成和维持是特定上下文特征驱动的结果。采用词向量的方式表示一个用户的特征上下文,我们提出基于上下文特征频繁模式挖掘的社交圈分析方法。这种方法得到的社交圈允许存在重叠性和层次性,更加符合社交网络中个体具有多重身份和角色的真实情况。 ⑶在线社交网络的大规模特征和高速动态特性,使得实时获取、分析某个时间点上的静态全局网络成为不可能。本文提出一种适用于动态网络的重叠社区发现方法,在社区核等概念的基础上,受启发于基于局部特征的社区发现方法,将动态网络上的变化归结于节点增加、节点删除、边的增加、边的删除等四个原子操作。我们分析四个原子操作对网络社区结构带来的影响,发现动态网络上的社区结构,这种方法可以允许一个节点属于多个社区。 ⑷大规模网络上快速社区发现是目前社交网络分析的一个重要方向。标签传播算法利用标签在网络上随机扩散机制来发现隐藏的网络社区机构,算法思想的简单性、可并行性以及接近线性的复杂性使得很多在线服务商用其进行网络结构分析和兴趣谱分析。针对原始标签传播算法稳定性不高,我们提出利用标签影响力传播和通过阈值控制解决影响力大的标签过早扩散从而形成超大社区的问题,在不改变算法时间复杂度的情况下,大幅度提高算法的稳定性。