基于节点重要度的链路预测算法研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:zhangzhao322
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网行业的快速发展,人类的生产生活产生大量的复杂网络。链路预测的主要任务是通过已知的网络节点以及网络结构等信息,预测网络中尚未产生连边的节点对之间在未来产生链接的可能性。作为数据挖掘领域的一个重要分支,链路预测已成为各领域研究者关注的重点,广泛应用于生物实验、推荐系统、网络重构、在线社交等领域。以共同邻居(Common Neighbors,CN)为代表的传统链路预测算法仅根据节点的一阶邻居信息计算节点对的预测得分,凭借易于实现、可解释性强等优势已拥有大量的应用场景,但随着网络规模的不断增加,仅根据一阶邻居信息进行链路预测难以准确建模网络全局的演化趋势。对此,研究人员尝试引入更多的邻居信息丰富待预测节点对的属性,达到提升链路预测精度的目的。现有的链路预测算法表现出良好的预测效果,但仍存在一些问题,例如:1、侧重于利用节点的单一属性进行链路预测,缺乏对多种节点属性信息的整合;2、未考虑节点间不同路径的差异性,仅对其进行无差别选取,缺乏对路径信息的充分挖掘;3、通常针对特定类型的网络进行算法设计,难以直接迁移到其他类型的网络中。针对现有算法存在的不足,本文围绕基于节点重要度的链路预测算法展开研究,主要工作如下:(1)为充分利用网络的全局信息,提出一种基于节点全局重要度的链路预测算法(Nodes’Global Importance Based Link Prediction,GI-LP)。通过k-shell分解算法将网络进行划分,根据不同子网络的影响力为节点分配对应的6)值;为充分挖掘邻居节点的信息,利用香农熵度量邻居节点的多样性;将节点自身以及邻居节点的信息进行充分整合,计算得到节点的全局重要度;根据有向网络不同链路类型的区别,将节点全局重要度整合到链路权重中,构建带权邻接矩阵;利用改进的Bi-fan预测器计算待预测节点对的得分。在六个不同领域、不同规模的数据集上进行对比实验,结果表明所提出的算法在链路预测性能上均优于基线算法,并在一定程度上缓解了数据稀疏性问题对链路预测任务的不利影响。(2)考虑到某些节点的全局重要度较低,但在特定领域的子网络中表现出较强的影响力,因此,提出一种基于节点局部重要度的链路预测算法(Nodes’Local Importance Based Link Prediction,LI-LP)。考虑到待预测节点对之间的最短路径长度会对新链路的产生带来影响,通过将最短路径与节点的权重结合,计算节点的局部重要度;设计一种基于有向图的图卷积网络模型,利用节点的局部重要度控制图卷积网络模型在信息聚合阶段对邻居节点的信息提取程度,借助图卷积网络强大的信息提取能力,充分挖掘网络结构信息,产生节点的低维向量表示;将待预测节点对的低维向量进行拼接处理,通过多层感知机(MLP)输出预测得分。在六个不同领域、不同规模的公开数据集上进行对比实验,结果表明提出的算法具有较好的链路预测性能。(3)考虑到节点的全局重要度和局部重要度均对链路预测任务有积极的影响,因此,提出一种结合节点全局和局部重要度的链路预测算法(Combined Nodes’Global and Local Importance Based Link Prediction,CI-LP)。采用k-shell分解算法将网络划分为具有不同影响力的子网络,根据不同的子网络为节点分配对应的6)值;通过计算邻居节点6)值分布的香农熵,将其作为邻居节点多样性的表示,达到充分提取邻居节点信息的目的;结合节点自身和邻居节点的信息计算节点的全局重要度;通过Dijkstra算法计算待预测节点对之间的最短路径,使用节点全局重要度初始化节点的权重,连乘最短路径中的节点权重输出节点的局部重要度;利用适用于有向图的图卷积网络模型,将节点的全局重要度添加到节点的属性向量中,结合节点的局部重要度对网络中的邻居节点信息进行充分提取,将复杂的图数据转化为低维向量表示,达到有效结合节点的全局和局部重要度的目的;拼接待预测节点对的低维向量,利用MLP输出预测得分。在六个不同领域、不同规模的公开数据集上进行对比实验,结果表明提出的算法在预测准确率上均高于基线算法。
其他文献
近年来,全球癌症发病率呈逐年上升趋势,其中女性乳腺癌的发病率已经超过肺癌,已经成为影响女性健康的主要疾病之一。对乳腺癌症患者进行精准生存预后判断是当前乳腺癌研究领域的关键问题。准确的生存预后作为癌症预后的重要研究内容之一,在临床决策、建立姑息治疗体系等方面具有重要意义。与此同时,基因测序技术和数字影像技术的发展带来了海量的癌症组学和病理图像等多模态数据,为乳腺癌患者生存期预测研究提供了坚实的数据基
学位
人机对话作为自然语言处理的一个重要分支,旨在使普通人能够使用自然语言与机器进行交互,以方便快捷的方式获得自动信息服务。现有的人机对话系统主要可分为闲聊型和任务型两大类。任务型对话系统包含自然语言理解(Natural Language Understanding,NLU)、对话状态追踪(Dialog State Tracking,DST)、对话策略(Dialogue Policy,DP)和自然语言生
学位
聚类分析是一种经典的无监督机器学习方法,其主要目标是根据数据空间的相似性,密度,间隔或特定的统计分布度量将数据进行划分。聚类一般用于探索性的数据挖掘问题,如今在图像分析,信息检索,数据压缩,文本挖掘和生物信息学等多个领域均有广泛的应用。然而,随着数据采集技术和存储技术的进一步发展,大量的无结构化、非线性的高维数据也随之产生,传统的聚类算法往往无法有效地揭示和探索这些高维非线性数据的潜在知识规律。因
学位
报纸
背景:研究表明,在地塞米松诱导腭裂的小鼠胚胎腭突间充质细胞中miR-135a-5p呈高表达,初级纤毛及其介导的Shh信号通路参与小鼠胚胎腭突间充质细胞的自噬。由此猜测miR-135a-5p可能通过初级纤毛及其介导的Shh信号途径调控小鼠胚胎腭突间充质细胞的自噬。目的:探讨miR-135a-5p对小鼠胚胎腭突间充质细胞自噬的调控作用。方法:体外提取并培养C57BL/6J小鼠胚胎腭突间充质细胞。细胞转
期刊
并非所有的成果都类似诺贝尔奖的获奖工作或发表在《Nature》或《Science》上的研究一样拥有相当的成就与影响力,对于其余大部分的科研成果进行合理的量化分析,往往关系到科研政策、评价规则等的制定与修改,是长期以来的研究课题。研究实体主要有两种公开行为,即发表和引用。发表中包含的信息相对有限,其作为作者对自身研究内容的单向表达,基本只能体现作者在对应时期的研究内容及合作关系;而引用作为科研工作间
学位
图像超分辨率重建是计算机视觉中的一项关键性技术,旨在将低分辨率图像重建成具有丰富纹理细节的高清分辨率图像。在如视频重建,医学检测、地理遥感、目标识别等众多领域有着广阔的应用前景和重要的研究价值。高分辨率图像模糊退化成低分辨率图像的过程中含有诸多难以建模的复杂因素,该映射是一种一对多的关系,难以一种求解简便的逆函数方法得到超分辨率图像。近年来,随着深度学习的发展以及在图像重建的实际应用,超分辨率重建
学位
变应性鼻炎(Allergic rhinitis,AR)是指特应性个体接触变应原后,发生的主要由过敏原特异性Ig E介导的,且体内有多种免疫细胞及细胞因子参与的鼻黏膜慢性非感染性炎性疾病。主要临床表现包括,阵发性喷嚏、流清水样涕、鼻痒和鼻塞,且可能伴有支气管哮喘、慢性鼻窦炎和变应性结膜炎等多种并发症,对人们的生活和健康造成极大困扰。流行病学调查显示,全球大约有10%-40%的AR患者,不仅在生活质量
学位
背景和目的:骨关节炎(Osteoarthritis,OA)的发展与关节组织中老化细胞的增多和软骨降解有关,原因可能是线粒体功能障碍和氧化应激。因此,减少氧化应激对软骨细胞的损伤通常被视为治疗OA的有效手段。淫羊藿作为一种传统中草药,常用于OA的基础研究和临床治疗。其独特的黄酮类化合物淫羊藿苷被历版《中国药典》指定为淫羊藿药材质量评价的指标性成分,具有清除氧自由基(Reactive oxygen s
学位
随着信息技术的蓬勃发展,人类社会中产生的数据量飞速增长,数据对象的类别及其相互之间的关联越来越复杂,形成了规模巨大、种类繁多的异构信息网络(Heterogeneous Information Network,HIN),如何挖掘这些数据中包含的知识成为亟需解决的问题。因此,需要探索合理的异构信息网络表示方式,以提高存储与分析的效率。早期的方法基于网络采样的结果学习网络节点的稠密向量表示。然而,这类方
学位