基于密度峰值聚类和多属性决策的社团检测算法研究

来源 :兰州大学 | 被引量 : 0次 | 上传用户:ni0ni
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对复杂网络的研究是数据挖掘的主要方向之一,而社团检测是复杂网络研究的重要组成部分。社团结构揭示了网络各个组成部分的内部组织信息和不同部分的外部连接关系,不仅可以帮助研究人员更好地理解复杂网络,也进一步促进了复杂网络其它方面的研究。在复杂网络中检测社团的过程可以理解为一个聚类过程,社团可以看作节点在网络上紧密连接的簇,而且社团中存在着“簇中心”这样的特殊节点,使得密度峰值模型适用于社团检测问题。本文在以往相关研究的基础上提出了基于密度峰聚类模型和多属性决策算法TOPSIS(Technique for Order Preference by Similarity to an Ideal Solution)的社团检测算法,其中包括适用于普通复杂网络的DPCT算法(Density Peak Clustering and TOPSIS-based community detection algorithm)和适用于多重网络的MDPCT算法(Density Peak Clustering and TOPSIS-based community detection algorithm in Multiplex networks)。(1)适用于普通网络的DPCT算法。DPCT首先将网络中的节点集根据其连接情况,转化为密度峰值聚类模型中与节点密度和距离有关的二维数据集,并用DBSCAN在该二维数据集中聚类,将无法聚在类中的离群点看作“簇中心”,即关键节点。之后,DPCT在关键节点的基础上形成初始的社团框架,通过逐步添加与社团最相似的节点进行社团扩张,形成初始社团。在这个过程中,DPCT使用多属性决策算法TOPSIS综合四种不同相似度的优势,计算出一种更为准确且适应性更强的新相似度T–similarity,使用T–similarity筛选出与社团最相似的节点。然后,DPCT依据T–similarity分配初始社团未覆盖到的非关键节点。最后,通过两种方式,对之前过程中得到的部分规模较小的社团进行合并,得到最终稳定的社团结构。(2)适用于多重网络的MDPCT算法。本文将DPCT算法的基本思想运用在多重网络的社团检测问题中,并进行适应性改进,提出可以在多重网络中检测出高质量社团结构的MDPCT算法。该方法的具体流程与DPCT类似,首先通过多重网络的特性,将节点以密度和距离作为属性转化在密度峰值聚类模型的二维数据集中,同样通过DBSCAN识别其中的离群点作为关键节点。在转化节点信息的过程中,MDPCT使用熵函数充分考虑多重网络中各层的拓扑信息,得到更合理的关键节点。然后,所得关键节点被用于构建多重社团框架,并通过依次添加与社团框架最相似的节点进行扩张,在这一过程中,TOPSIS综合各层网络中的多种节点相似度,计算出可以在多重网络中衡量节点间相似关系的新相似度MT–similarity。多重网络中,扩张后的社团同样无法覆盖到所有节点,因此,M T–similarity也被用以处理扩张结束后未被划分到社团中的非关键节点。在这个过程中,同样会产生一些规模较小且缺乏内部连接的社团,MDPCT将通过聚合多重网络为一层加权网络,并在该网络中分别使用两种针对加权网络改进后的方法对部分小社团进行合并处理,得到高质量的多重网络社团结构。本文在多个真实网络和多组人工合成网络上分别对DPCT和MDPCT进行了实验,并将实验结果与其它优秀的社团检测算法进行对比。实验结果证明,DPCT和MDPCT相对于其它社团检测算法更为准确且适应性更强。
其他文献
研究目的:通过搜集近端锚定区不足行左锁骨下动脉(Left Subclavian Artery,LSA)重建的主动脉弓部疾病患者资料进行总结,对比“烟囱”支架植入术与Castor分支支架植入术两种术式的近期疗效,给后续的临床工作提供一些参考。研究方法:收集2017年11月-2021年3月期间,北京大学深圳医院心血管外科收治的近端锚定区不足的重建LSA的主动脉弓部疾病病例,其中27例接受了Castor
学位
文本作为信息传递的载体,有助于人们对场景语义的理解。而随着移动互联网的发展和人们需求的变化,文本的检测和识别也逐渐从传统的文档文本转向自然场景图像文本。自然场景图像文本的检测与识别可以广泛地应用在实时翻译、票据识别、智能驾驶等多个领域。然而,自然场景图像通常存在背景复杂、文本形态弯曲、模糊等问题,使得文本检测与识别的难度增加。针对以上问题,本文从以下几个方面展开研究:(1)在文本检测方面,本文提出
学位
第一部分分析颅内动脉瘤形成的危险因素目的:分析颅内动脉瘤形成的相关危险因素。方法:选取时间段为:2020年1月至2021年8月,地点为:汕大附一院,研究对象为:187例收治住院的颅内动脉瘤患者和对照组142例。通过收集这些患者的年龄,性别,个人史(包括吸烟史、饮酒史),既往史(包括高血压病史、冠心病病史),实验室检验结果(包括空腹血糖、血脂),采用单因素分析和多因素Logistic回归分析,分析患
学位
<正>“短期来看市场已经触底,恢复是一个缓慢温和的过程。”送现金、送首付、送车甚至送车库……这些促销卖房的玩法已经不稀奇了。近段时间,河南建业旗下的两个洋房项目相继推出“爱心助农”活动,称“小麦和大蒜可以抵首付”。简单来说,“小麦换房,2元/斤;大蒜换房,5元/斤。”翻新的促销模式和前所未有的力度,顿时引发坊间热议。有人感慨开发商“套路不错”:既帮农民卖了小麦和大蒜,改善了住房环境,又帮自己卖了房
期刊
基因组注释是一种通过对测序数据分析得到基因组序列中全部基因位置和功能的方法,是基因组分析中最主要的工作,广泛应用于生物、临床以及药物研究工作中。随着高通量测序技术的发展,测序得到的基因组数据量极具增长,对基因组数据的注释分析需要更密集的计算和更庞大的储存,难以在小型桌面计算机平台中开展,因此基因组注释也越加依赖高性能计算集群来为其提供基础计算资源的支持。但是在高性能计算集群上进行基因组注释对于很多
学位
在航空航天、核电以及当下热门的自动驾驶等领域中,系统功能的失效可能会严重威胁人的生命与财产安全,这类领域需要使用高度安全可靠的安全关键系统。安全关键系统通常需要部署分区隔离架构来隔离多任务间的干扰,Linux内核的容器技术能够提供足够的隔离能力,并具有运行效率高、资源占用少等优点,在多个工业项目中被作为分区隔离的实现方式。但Linux内核并非专门面向安全关键领域设计开发,因此需要对Linux内核进
学位
背景及目的慢性硬膜下血肿(Chronic subdural hematoma,CSDH)是一种常见的神经系统疾病,以老年人为主,主要是指在硬膜下腔储存血液或血液制品。其发病率也在逐渐升高,这与老年社会的到来和预期平均寿命提高有关。慢性硬膜下血肿的主要处理方式是钻孔引流,然而在钻孔引流术后,仍存在较高的复发率。目前普遍认为CSDH的形成是一个血管生成和炎症的过程,但我们仍未完全了解CSDH的多因子机
学位
目的:针对高血压合并心衰患者接受小剂量酒石酸美托洛尔片与替米沙坦联合治疗产生的效果做出分析,并对其安全性展开研究。方法:此次研究时间范围在2019年4月—2020年9月之间,研究对象共有80例,为本院在此阶段收治的高血压合并心衰患者,以电脑随机分组为原则,将其均分为常规组(共40例,接受替米沙坦治疗)、分析组(共40例,同时接受小剂量酒石酸美托洛尔片治疗),对比治疗效果。结果:常规组患者在经过治疗
期刊
背景:创伤性脑损伤(Traumatic Brain Injury,TBI)是成人创伤后死亡和致残的重要原因。即使行去骨瓣减压术(Decompressive Craniectomy,DC),脑外伤患者的死亡率仍然很高,此外,家属也承担着巨大的经济和精神负担。目的:本研究的目的是寻找TBI患者DC术后死亡的独立危险因素,建立一个预测TBI患者DC术后3个月内死亡风险的预测模型。方法:单因素及多因素Lo
学位
背景和目的:创伤是当今人类死亡的主要原因之一,全世界每年约有580万人死于创伤所致的各类损伤。在我国,创伤作为45岁以下人员的首要死因,对预期寿命和社会经济的打击不可估量。为了预防创伤发生、降低创伤导致的伤害、提高创伤救治水平,需要收集分析创伤数据揭示创伤发生的规律。为此,国内外同行相继开展了创伤数据库的研究,但由于国内一线城市大医院和地级市基层医院巨大的软硬件差距,后者并无相应的资源条件以满足前
学位