含有协变量的混合隶属度随机块模型的社区发现

来源 :浙江财经大学 | 被引量 : 0次 | 上传用户:xxiihhaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社区结构作为社交网络的重要特征之一,在宏观上可以帮助我们深入理解网络的拓扑特性和本质的同时,在微观上对探索网络中用户的行为特点和用户之间的逻辑关系有着重要的作用。因此,社区发现作为社交网络的一项重要研究吸引众多领域的科研人员从不同的角度进行研究,但目前社区发现的研究仍然有许多未能解决的问题,如社交网络的重叠社区发现问题、异质网络的社区发现问题和社区发现的应用等等。在社区发现领域,早期的社区发现方法主要集中在对不含协变量或其他信息的社交网络做非重叠社区发现,而混合隶属度随机块模型(Mixed Membership Stochastic Block Model,MMSB)可以对有向网络作重叠社区划分,同时可以获得各节点在各社区的隶属度情况。但是现有的MMSB模型只考虑了社交网络本身的连接信息,并未考虑节点的协变量信息,这会令模型的社区划分精度和应用受到限制。Roy et al.(2018)考虑了用带有节点协变量的随机块模型(Stochastic Model,SBM)来研究Facebook数据,但SBM模型不能用于重叠社区。基于以上,本文通过研究现有的社交网络社区发现方法,分析各自的优缺点,提出了基于混合隶属度随机块模型的含有协变量信息的重叠社区划分方法,主要完成了以下几方面的研究内容:1)在MMSB模型的基础上,提出了一种针对含有节点协变量信息网络的重叠社区划分模型。首先,通过建立生成模型来模拟观测网络的生成过程,根据估计的参数,即节点的混合隶属度,对社交网络进行社区划分。由于本模型的似然函数复杂度比较高,且参数之间并不是互相独立的,直接利用极大似然估计方法不方便进行估参,因此,本文运用变分期望最大(Variational Bayes expectation maximization,VBEM)算法做参数估计。我们将从数学角度说明了模型构建的合理性,并详细地推导了利用VBEM算法求解模型参数的迭代公式。2)众所周知,社交网络中的节点会含有很多协变量信息,如Facebook用户的年龄、性别、院校、职业、喜好、家乡等,有些协变量对于社区发现并没有很重要的作用。尤其是在社交网络中节点足够多时,筛选协变量可以在保证社区发现效果的前提下,大大降低模型的运行时间。本文筛选协变量采用的办法是The Least Absolute Shrinkage and Selection Operator(Lasso)法,该方法能够对变量进行筛选降低模型的复杂程度,本文还介绍了确定社区数目的方法。3)运用含有协变量的MMSB模型做数值模拟以此来评估本模型的性能。主要评估本模型在单一社区和重叠社区以及低、中、高不同的进出比率和平均度下构造的生成网络下的表现情况。评估模型所用的主要指标是标准化互信息和模块度。结果表明,含有协变量的MMSB模型在高平均度下生成的网络社区发现效果比较好。4)运用含有协变量的MMSB模型对Facebook数据做社区发现,进行实证分析,并通过可视化的方法显示社区划分结果。该实证表明本模型的似然函数可以收敛,通过构建邻接阵的热力图、展示节点的混合隶属度等展示模型的划分效果。最后,利用模块度方法,我们对含有协变量的MMSB模型和基础的MMSB模型以及含有协变量的SBM模型的社区发现效果进行量化比较。最终,我们发现,含有协变量的MMSB模型的社区划分效果要优于其他两个模型。
其他文献
部分变系数模型相较于变系数模型既有非参数部分,又有参数部分,充分利用已知的先验信息可以大大的提高模型的效率,它的明显优势体现在模型形式及回归系数的解释方面。因此统计学、医学、经济学等各个领域越来越重视部分变系数模型。近年来,国内外学者在此研究中最关注的方面是部分变系数模型的适用条件、未知参数的估计及模型的预测和拟合等,而最关键的问题是怎样对模型中的未知参数进行估计和推断。对于变系数函数参数估计中,
钠离子电池因为具有更低廉的成本和无毒性,作为替代锂离子电池的储能器件被广泛研究。目前钠离子电池电极材料存在能量密度低和循环稳定性差等问题。二维材料如石墨烯和过渡
有限半参数混合模型因其极其灵活的模型假设,自提出以来在理论研究和应用方面都得到了越来越多的关注。确实,在实际问题中,如金融、经济、社会科学和生物医学等领域,我们经常遇到异质总体的数据,那么在异质总体中,双成分混合模型就变成了重要的统计分析工具。本文中,我们将着重研究一类被高频引用的双成分半参数混合模型。在研究了一些已有的参数估计的方法后,我们提出了一种新的稳健估计方法:基于连续尺度混合的估计方法。
中国进入新时代,国家日渐强盛同时现代公共问题也日益增多,相互依赖性加强,使得政府无法成为社会问题和公共事务的唯一治理者,需要其他主体的介入。中国共产党十八届三中全会报告阐述了“创新社会治理体制”,包括改进社会治理方式和激发社会组织的活力,这为新时代社会组织的发展指明了目标和方向。党十九大报告上习近平总书记进一步明确强调发挥社会组织作用对于推进我国基层治理体系具有重大意义。社会组织、政府和市场是社会
学位
茶多酚和茶黄素分别是绿茶和红茶中主要的多酚类物质,具有较强的生物活性作用。由于茶多酚和茶黄素口服之后其原型成分的体内相对生物利用度很低,导致大部分到达结肠部位并被
逆磁玻璃的Verdet常数几乎不受温度影响的特性,这使得其在一些复杂环境中使用具有很大的优势。过渡元素纳米材料掺杂逆磁玻璃成为当前研究的热点之一,过渡元素离子通常存在多
印染行业会产生大量的印染废水,因为染料废水中含有大量的有机物和盐分,具有COD高、颜色深、水质变化大等特点,故一向是废水处理中的难题。三苯甲烷类染料罗丹明B废水是最难
四氢菲类化合物不仅存在于许多具有生物活性的天然产物中,同时在医药和农药领域也具有广泛的应用。传统的合成四氢菲类化合物的方法需要微波辅助或者加入当量的路易斯酸,条件
天然气分布式能源同传统的集中式能源相比,具有能源利用效率高、清洁环保污染小、运营过程安全性强、削峰填谷效用明显、外在经济效益好等优点。由于我们国家分布式能源的研
非结构碳水化合物(NSC)在植物适应环境中起着举足轻重作用,其浓度和含量的变化是反映植物生态对策的重要指标。克隆植物独特的生理特性对异质性生境具有良好的生态适应策略。