基于图核的异质信息网络链路预测方法

来源 :河北师范大学 | 被引量 : 0次 | 上传用户:liuhaiyi123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
异质信息网络蕴含丰富的结构信息和语义信息,能够形象、灵活地区分交互系统中对象及关系的差异性。链路预测是图挖掘的基本问题,它根据观察网络中现有的信息估计两个节点之间链路的存在概率,可作为解决数据挖掘中许多任务的基础。现有研究方法多数只关注网络拓扑结构而忽略了节点属性信息,并且用于链路预测的相似性度量方法往往根据元路径考虑节点间的路径相似性。本文根据数据特性提取节点属性信息,结合图核理论,进行异质信息网络链路预测,从节点属性和图拓扑结构两个层面分析问题。论文主要工作包括:
  (1) 生成子图与向量化节点属性
  通过搜索元路径,筛选网络中对象之间的有用信息。结合深度优先遍历方法,构造自动元路径生成方法。以生成的元路径集合为基础,围绕目标节点对修剪异质信息网络,得到经过此节点对的路径实例构成的子图。面对节点属性信息,使用TF-IDF方法和相似性度量方法选出特征词,利用Glove模型生成词向量表示特征信息,以向量化表示目标节点对的节点属性。利用元路径生成子图并向量化节点属性,为后续研究提供基础。
  (2) 基于图核的链路预测方法
  提取子图相似性特征,利用SVM学习子图特征,预测链路存在的可能性。结合图核理论对子图进行相似性度量,图核将图映射到Hilbert空间,在Hilbert空间中计算两个图之间的相似度。然后根据图核方法得到的特征向量,训练SVM作为链路预测模型,得到链路预测分类结果。同时考虑网络拓扑结构和节点属性信息,得到更全面的特征,以提高预测精度。
  (3) 实验验证与分析
  在Aminer数据集的四个子数据集上,本文提出方法NGLP与三个监督学习模型和四个基于得分的模型分别对比,进行实验验证及分析。本文方法的度量结果在不同子数据集上均有提升,实验结果表明,本文算法在提高精度的同时保证了一定的稳定性。
其他文献
学位
学位
随着大数据时代的来临,全球互联网产业展现出巨大的发展活力和韧性,在数字基建和数字经济迅猛发展的同时,我国网民规模、互联网普及率以及平均每周上网时长都有迅速增加扩大趋势,这导致网民们每天都充斥在海量的网络信息里,产生了严重的信息过载问题。如何解决当前信息过载问题已经非常迫切,需要对海量信息进行信息抽取和过滤,减轻负担。而对于信息抽取最重要的一环就是自动文摘,自动文摘就是利用计算机对文本中心内容进行简
大数据时代带来了信息量的指数增长,现实中各行各业积累了巨量的数据。由于数据采集难度和事件发生频率的不同,导致了各个类别的样本数量具有差异,形成了类别不平衡问题。类别不平衡问题造成了传统机器学习分类器的分类精度下降。已有的代价敏感学习方法能够较好地处理类别不平衡问题,然而复杂的类别中蕴含了类与类之间的层次结构关系。数据中类别具有层次关系的样本分布不平衡问题给机器学习分类任务带来了很大的挑战:(1)少
学位
在多标记学习中,由于丰富的标记结果需要由大量的特征属性描述,同时标记间自由组合的标记子集数量随着标记数量的增加而呈指数型增长,在样本有限的情况下导致只有少数标记子集具有样本描述且这些标记子集的平均覆盖样本数量较少,这表现为多标记学习中的两个特点:特征维度高和不均衡学习,因此多数传统的单标记特征选择算法无法很好的直接应用到多标记学习任务中。本文以经典的FisherScore单标记特征选择算法为研究对
学位
在大数据时代,特征选择作为一种数据预处理技术,在机器学习领域发挥着越来越重要的作用。目前,大多数特征选择方法主要应用于单标签数据,然而,随着数据维度和标签的不断增加,特征选择已经广泛的应用于多标签数据,并产生了较好的分类效果。传统的一些多标签特征选择算法大多度量特征与整体标签集合的相关性,并选取一组相关性较大的特征子集,然而,多标签数据中的标签间存在着复杂的结构关系,如果仅仅去度量特征与标签间的相
学位
Pawlak提出的粗糙集理论,是一个处理模糊和不精确性问题的数学工具,能对数据进行分析和处理,从中发现隐含的知识;并揭示潜在规律,做出准确决策。但是,Pawlak粗糙集是以等价关系为基础,在很大程度上限制了粗糙集理论的使用范围和处理效果。为了解决这种问题,近年来学者们提出了多种广义粗糙集模型,包含关系粗糙集、模糊粗糙集、变精度粗糙集和覆盖粗糙集等,其中覆盖粗糙集理论已是粗糙集理论的重要组成部分。 
随着互联网、人工智能和云计算等新兴技术的飞速发展,这些领域的数据普遍呈现出高维的特点。同时,这些高维数据又存在特征维数与样本数量不协调、类别分布不均衡的问题。为了能够从这些海量数据中充分挖掘出有价值的信息,特征选择作为一种数据预处理技术,在机器学习领域发挥着越来越重要的作用。面对高维样本数据,目前许多特征选择算法都能够选取出与标签相关度较高、与其它特征冗余度较低的特征。但是,去冗余的过程较为复杂,
学位
蛋白质在生命活动中起着重要作用,了解蛋白质的结构与功能,有助于人类探索生命的运行机制,促进治疗药物的研发。其中,蛋白质与核酸的结合对细胞转录过程具有重要的调控作用,而蛋白质的翻译后修饰广泛存在于细胞翻译过程中。因此,核酸结合蛋白和蛋白质翻译后修饰位点的预测对于了解蛋白质的功能具有重要意义。传统的生物实验方法周期长、成本高,无法满足日益增长的大规模蛋白质数据的预测。基于计算的方法消耗成本更少且简单高
显著性检测是通过模拟人的视觉注意机制,在图像中提取具有显著性的目标区域的过程。作为诸多计算机视觉应用的预处理步骤,显著性检测已广泛应用于多种任务中。本文总结和分析彩色图像显著性检测和高光谱图像显著性检测技术的研究现状,并基于深度学习研究实现了结合对抗学习的彩色图像显著性检测算法和结合自监督学习的高光谱图像显著性检测算法。1.结合双流特征融合及对抗学习的彩色图像显著性检测(SaTSAL)在CGAN主
学位