大图上重叠社区发现算法的研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:dragon890123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着信息技术的高速发展,社会网络数据规模呈现爆炸式增长,网络结构日趋复杂。其中,社区结构是复杂网络中普遍存在的一种拓扑特性,而在真实的社会网络中,社区结构通常是重叠的,如某个人可能同时活跃在多个兴趣小组中。因此,近年来挖掘复杂网络中的重叠社区结构成为很多专家学者研究的热门课题之一,但是目前该课题仍未得到完美的解决;同时,目前的重叠社区发现算法多是基于网络的拓扑结构进行研究,很大程度上忽略了网络中节点所特有的属性信息在挖掘社区结构中的作用,而属性信息对于挖掘到更加准确的社区结构具有很大的帮助。因此,为了解决目前重叠社区发现算法中存在的问题,本文在以下几个方面进行了研究与讨论。首先,借鉴 COPRA(Community Overlap Propagation Algorithm)算法的多标签传播机制,针对COPRA算法目前存在的问题,提出一种基于新的标签选择策略的COPRA 优化算法 COPRA-NLS(COPRA-New Label Selection),并最终在 BC-BSP 平台上实现该算法。新的标签选择策略引入了网络中的局部聚集系数和节点最近更新的标签信息,有效地降低了标签更新的随机性,提高了算法的迭代效率。其次,基于多标签传播思想,本文提出了一种同时考虑网络的拓扑结构和属性信息的重叠社区发现算法SA-COPRA(Structure and Attribute-COPRA),其中主要工作包括:(1)针对属性图设计了一种同时考虑拓扑结构和属性的重叠社区发现的框架;(2)提出了一种基于拓扑结构和属性的图统一计算模型,该模型通过运用不同的计算方法对图中的结构边和属性边设定不同的权值,然后运用合并规则来统一度量图的拓扑结构和属性,形成统一的扩展图;(3)采用邻接随机游走模型来计算扩展图中节点间的相似性,生成相似度矩阵;(4)结合扩展图及相似度矩阵,采用COPRA算法进行重叠社区发现,并引入了节点间的相似度进行比较。最终发现的重叠社区内部结构紧密,且社区内属性信息是同质的;非重叠社区之间结构松散,属性信息是异质的。最后,讨论了在BC-BSP平台实现时采用的一些技巧,通过对BC-BSP系统全局聚集模块的优化,在实现时采用HDFS存储聚集值可以有效地提高算法的扩展性。通过在真实网络数据集和人工网络数据集上的实验表明,在大规模社会网络中,本文提出的两种算法可以在有效的时间内挖掘出高质量的重叠社区。
其他文献
目的:比较人骨髓、脂肪及脐带三种不同来源间充质干细胞成脂分化能力的差异,并从microRNAs和基因表达的分子层面初步揭示其成脂能力差异的分子机制,为MSC脂肪分化异常相关疾
降水是在多种因素共同影响下产生的重要气候现象,是大气循环的重要组成部分,随着全球变暖,各种不合理人类活动的加深,降水突变现象时有发生,其规律性越来越让人难以捉摸。而
二氟亚甲基基团(-CF2-)由于其代谢稳定性和吸电子效应的特点,所以经常被引入到有机分子中,来改变分子的代谢稳定性和生物利用度。现如今,随着含二氟亚甲基化合物在医药、农药和
本文主要考虑一阶非线性时滞微分方程的h-p型时间步进法.一方面,我们针对非线性消逝时滞微分方程,提出了h-p型连续Petrov-Galerkin方法,得到了数值解在L2、H1和L∞范数下的误
植物抗寒性以及抗寒育种一直是植物学领域的研究热点,高山离子芥(Chorispora bungeana Fisch C.A Mey)生长在环境复杂多变的冰缘地带,是研究植物逆境适应机制的理想材料。本
为了合理的利用山地资源和能源,对山地地表参数(如地表温度、土壤水分等)的研究是非常必要的。地表温度(LST)是山地环境研究中的一个关键地表参数,因此对山地地表温度的研究
大分子蛋白的核质转运对于真核细胞的生命活动来说非常重要。核质转运涉及到核质转运受体蛋白(核转运蛋白)与底物以及与核孔复合体之间复杂的相互作用,需要RanGTP的浓度梯度
稀土掺杂的上转换发光纳米材料作为一种新型纳米材料,其具有许多优异的发光性能,如无背景干扰、大的反Stokes位移、高的抗光漂白性、较深的组织穿透能力以及低生物毒性等。因
近年来,依据大量理论方法,许多科研人员研究和探讨了分子中原子间化学键及范德华作用的问题。两个原子正是通过化学键等相互作用才形成分子,为了探讨原子间的相互作用特征,杨
基因组重组,是基因组更改变换基因排列次序的行为,可形式化为翻转、移位、转位等基本操作。基因组重组,也是导致生命特征演化的典型结构变异行为。基因组重组排序,目的是找到