大规模图聚类优化算法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:king95
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前以社交网络为代表的复杂网络规模庞大且充满活力,如Twitter的日活跃用户数量超过为1.34亿,Snapchat的日活用户数超2亿,Facebook的月活用户突破20亿。这些海量数据构成了超大规模的社交网络图,类似的网络还包括交通网络,智能电网网络,生物网络,学术协作网络等。复杂网络提供了一种自然而有效的方法模拟各个领域中复杂的现实世界系统,由于现实世界网络在许多范围内都表现为有意义的结构社区,有效地挖掘大规模网络的结构信息具有重要的研究价值和意义。对复杂网络的聚类可以从不同的视角上进行研究,可以检测整个网络社区结构,也可以查询某些节点所属的局部社区,或者探索整个网络的演变方向等。随着新生信息技术的进步,不同领域中真实网络数据集迅速增加,网络数据集的规模和复杂性正呈数量级的增加。在各种科学领域中,图聚类是分析、建模和预测复杂网络演变的有效工具。图聚类中,簇通常是一组节点的集合,其中簇内节点彼此连接到其他组成员的可能性更大,或者说节点间的相似度更高。许多学者尝试解决图聚类问题,如基于启发式算法,图分割算法,标签传播算法,在面对大规模图聚类问题时缺乏有效的框架,聚类指标较差,分析理论公式复杂,计算复杂度高而令人望而却步。如何处理大规模网络图数据仍然是一个非常困难的挑战:大量数据、不规则数据访问模式和计算密集型。针对已有工作的不足,本文研究大规模图聚类挖掘相关技术,设计了快速图聚类模型、提出了基于高阶结构的图聚类模型及面向大规则复杂网络的并行距离动态模型,主要工作如下:(1)针对大规模复杂网络的节点之间缺乏有效地全局距离度量方式,提出了一种基于随机路径抽样的图节点距离表示方法,可以快速而有效的求解节点间的全局距离,当采样路径超过到一定比例时,准确率就会有较高的质量保证。为解决密度峰聚类算法无法有效地处理网络图中的稀疏区域,提出了一种局部K-近邻密度,可以实现对局部稀疏图聚类的检测,而不是简单地将其合并到其他聚类中,或者将其视为噪音节点。考虑到常规的密度峰图聚类模型对于异常点存在误分配的情况,设计了二度优化规则:直接邻居连接规则和S-Core-KNN连接规则,能够识别被误分配的噪音点,减少异常噪音节点数量。实验结果表明,RPDPC算法具有较好的社区结构发现性能,可以高效的完成图聚类任务,在稀疏网络也能够发挥较好的性能。(2)复杂网络图聚类任务除了检测社区结构之外,对特殊角色节点(如异常节点和枢纽节点)的识别也是理解复杂网络的功能结构的一项有价值的任务。如何检测复杂网络中的社区结构以及识别关键角色节点已成为一项具有挑战性的问题。基于密度的图聚类算法如SCAN,能够在一定程度上发现复杂网络中的社区结构,并识别出复杂网络中的异常节点和枢纽节点。然而,传统算法仅从单个节点或边的角度出发,并未考虑对复杂网络中的高阶结构信息。为此,提出了一种新颖的高阶密度图聚类模型(HSCAN),基于高阶结构连接密度实现对复杂网络中的社区结构,枢纽节点和异常节点的识别。考虑到传统的基于密度的聚类算法存在参数异常敏感问题,及其核心节点的选取存在一定的随机性问题,提出了基于社区节点的相似度衡量指标,当存在多个节点满足核心节点备选条件时,优先选择与社区相似度最大的节点作为核心节点完成下一阶段社区扩充的种子。实验结果表明,提出的高阶密度图聚类算法可以在多项式时间内完成复杂网络中的社区结构检测,识别枢纽节点和异常节点。(3)考虑到复杂网络中存在多个节点形成的高阶混合结构,而基于单个顶点或边的传统聚类方法不能满足要求。基于高阶结构密度图聚类模型具有较好的聚类质量,但时间复杂度也较高,为此提出了一种局部高阶图聚类算法(MLEO)。首先,引入了一个新的聚类质量评分标准(局部Motif率),可以更有效地反映高阶结构的聚类密度。然后,提出了一种局部高阶扩展算法,使用贪婪的方法来最大化聚类质量评分。此外,在此基础之上提出了一种新的种子处理策略(Motif-seed),它扩展节点度的概念(M-degree),通过获得具有更好聚类质量分数的初始社区来改进最终社区。研究结果表明,提出的策略可以比其他方法获得更好的性能,尤其是混合参数的值达到0.6以上时。(4)针对经典的距离动态模型无法快速处理超大规模(上亿级边)图聚类问题,提出了面向超大规模网络的并行图聚类算法(H-Attractor)。首先基于局部领导力模型建立节点间强弱链接关系的约束,在动态交互之前加入先验约束,以此来减少参与计算边的数量。然后定义了收敛系数以判断动态交互过程是处于慢收敛还是非收敛状态。在动态交互过程中,当非收敛距离的百分比小于收敛系数时,提前预判断距离的最终值。最后基于双克隆图划分方法实现了并行距离动态模型,实验结果表明算法处理大规模网络(例如Uk-2007)的时效性和准确性,在并行度为4和32时的执行时间分别约为10小时和2小时。改进的并行距离动态模型具有收敛速度快,检测结果准确,具备快速处理超大规模的网络的特点。
其他文献
产生于上个世纪70年代初的Domain理论和80年代的Quantale理论是格上拓扑学的两个重要分支,它们各自独立发展,但从共同的数学基础来看,二者均基于序结构理论,同时与拓扑、代数
本文主要基于已有的二维雷暴云起、放电模式背景下的上行闪电随机放电参数化方案,来进行二维高分辨率闪电放电的模拟实验,定量探讨了其他闪电放电过程对上行闪电的触发产生的
设尼是一个域,S=k[x1…,xn]是域k上的n元多项式环.S的一个理想I称为不可约单项式理想,如果I由S的不定元的方幂生成,比如I =(x12,x23,x56).不可约单项式理想是一类特殊的完全相
本文首先介绍了粒子物理的标准模型及夸克-胶子等离子体(QGP)的产生,并阐述了能够达到高温高密环境从而产生QGP的相对论重离子碰撞过程,能够反映初态粒子几何信息的椭圆流及Q
雾、霾等不良天气条件下,户外场景的能见度急剧下降,导致成像设备采集的图像或视频出现了严重的退化现象,例如:色彩淡化、细节丢失及清晰度下降等,从而限制和影响了视频监控
算子谱理论,作为现代数学最基本的理论之一,一直是泛函分析中经久不衰的研究课题.它不仅在偏微分方程、非线性科学和量子力学中有着广泛的应用,而且在近代物理学、现代科学技
随着复杂网络研究的发展,人们逐渐开始关注网络结构复杂性以及其与网络行为之间的关系。为了更好地理解网络结构和网络行为之间的关系,就需要详细了解网络所具备的特性。复杂
随着互联网技术的进步,数据挖掘这一学术领域正在日益发展,离群点检测作为其重要组成部分之一,目的是找出异常的数据信息。迄今为止,离群点检测的相关技术已经在网络安全、社
关于对神经网络分岔行为的研究一直以来都是十分热门的话题,也是在神经网络动力学行为研究中的一大重点和难点。而时滞反应-扩散神经网络作为普通神经网络的扩展,由于其更符合现实生物神经网络的特点、存在更加丰富的动力学行为、更加适用于工业发展与应用而逐渐成为学者们的重点研究领域。本文分别研究了时滞中立型反应-扩散神经元模型的Hopf分岔和二维反应-扩散神经网络的Hopf分岔及图灵不稳定性,本文的主要内容和创
瘿蚜是能够刺激植物组织增生并形成虫瘿的一类蚜虫,是致瘿昆虫的重要类群。瘿蚜大部分是农林害虫,但也有一些种类对寄主植物没有明显为害,如五倍子蚜虫。沃尔巴克氏体Wolbach