基于多通道图卷积的异质网络表征学习研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:jiffylube
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息网络中,确定任意节点之间是否存在链接,基本的方法是使用邻接矩阵进行表示。但这样的方法会出现以下问题:如果节点仅有较少的邻居,即随机两个节点间可能不存在相连接的边,那么基于这些节点所构建的邻接矩阵就变得稀疏,并导致耗费很多不必要的空间来进行存储。因此,需要引入网络表征学习来应对以上问题。网络表征学习旨在将节点和向量之间找到一种映射函数并建立关系,同时保留网络拓扑性质,通过该函数将网络中的每一个节点转换到相应的低维潜在表示。异质信息网络刻画了不同对象间复杂的关联关系,并且还包含了不同节点和链接之间所产生的语义,但现有网络表征学习的研究方法大多是基于同种类型节点和链接关系的同质信息网络的研究,并且忽略了网络中节点特征和链接类型的多样性。目前,异质信息网络的表征学习在使用基于图卷积神经网络和基于图注意力机制这两种深度学习的算法时也仅限于单层模型的使用,并没有充分捕捉到异质信息网络丰富的拓扑结构、节点特征和语义信息。为了应对上述挑战,本文的具体工作如下:(1)提出了一种基于双重图卷积的异质信息网络表示学习方法(Heterogeneous Dual Graph Convolutional Neural Networks,HDGCN)。首先,构建特征图和根据不同的元路径提取异质信息网络中复杂的拓扑结构信息。其次,通过一个双重通道图卷积神经网络从不同通道分别得到网络拓扑以及特征属性的表征,再结合注意力机制,融合不同元路径产生的语义信息和结构信息进行表示学习。此外,通过构造一致性损失函数,旨在充分捕捉异质信息网络中两种结构的一致性,以增强不同结构之间的特征共性。(2)提出了基于自适应多通道的异质信息网络表征学习的方法(Heterogeneous Adaptive Multi-Channel Graph Convolutional Neural Networks,HAM-GCN)。为了进一步弥补HDGCN并未充分获得拓扑结构的高阶邻居信息,HAM-GCN首先根据不同的元路径提取异质信息网络中复杂的拓扑结构信息,并把这些拓扑结构信息通过随机过程的正点对互信息(Positive Point-wise Mutual Information,PPMI)矩阵进行构造。其次,HAM-GCN通过设计同样的三个通道来同时从节点特征、拓扑结构及其组合中提取关于不同元路径的特定和公共嵌入。最后,设计了通道级注意力和语义级注意力两级注意力机制,以融合从不同通道和不同元路径自适应学习注意力权重以获得的低维表示。通道级注意力专注于学习每个通道的重要性并为其分配不同的注意力值,语义级注意力旨在学习每条元路径的重要性并为它们分配适当的权重。三个通道的协同优化有利于嵌入基于局部一致性的知识和基于全局一致性的知识,以及学习拓扑结构和节点特征之间的一些深层相关信息。使用两级注意力有助于选择最相关的通道和元路径。(3)本文采用了四个真实的异质信息网络数据集DBLP、ACM,IMDB和YELP进行了充分的实验,通过节点分类、链路预测、可视化等下游任务以及参数敏感度分析和消融对比以验证HDGCN模型和HAM-GCN模型的有效性。HDGCN和HAM-GCN在节点分类任务中均能优于所对比的基线方法,充分验证了HAM-GCN具有提取不同元路径生成的最多相关信息节点特征、拓扑结构和语义信息的能力。
其他文献
在城市化、工业化背景下的“陌生人”社会,专业化、组织化的现代慈善事业凭借着信息优势得以蓬勃发展。互联网、智能手机等技术的不断进步在日益丰富慈善参与方式和渠道。网络募捐的“指尖公益”凭借门槛低、操作便捷、募款高效等特性获得越来越高的社会参与度和关注度。与网络募捐兴起相伴的是骗捐、诈捐事件层出不穷,一些网络平台遭遇认同危机。追根溯源,无一不是网络募捐平台多方参与主体之间信息分布不对称的结果。如何解决网
学位
针对现有深度网络修复大面积随机缺失区域时存在修复结构不合理、生成细节模糊等缺陷,本文提出两种改进的修复模型:基于并行卷积的双阶段对抗网络图像修复与基于多尺度信息融合的单阶段对抗网络图像修复。论文主要贡献如下:针对现有算法在修复大面积规则掩码时出现的结构信息不连续和语义信息缺失的问题,提出一种基于并行卷积的两阶段修复模型,该模型由并行卷积组成的粗修复网络和融合残差连接与注意机制的细修复网络组成。首先
学位
下肢静脉曲张产生的主要因素是由于静脉壁薄弱、瓣膜功能障碍和静脉内气压的不断增加,进而影响血液回流,从而导致静脉延长、产生迂曲、扩张等的临床症状。静脉曲张的最主要治疗方法是外科手术,由于通过外科手术可以根治静脉曲张,因而术前检查和个性化治疗方案的制定在静脉曲张的诊治过程中显得尤为重要。目前在临床上主要采用彩色多普勒超声、下肢数字减影血管造影(Digital Subtraction Angiograp
学位
上世纪70年代后期,英国生物化学家Frederick Sanger研发了第一代基因组测序技术,开启了基因组学新纪元,为探索生命的本质奠定了基础。经过科研人员的不断完善,测序技术历经三次迭代,至今仍然不能直接测得完整的基因图谱,只能先将完整的基因截取为不同长度的read(碎片),随后测得read序列,通过拼接技术将这些read拼接为完整的基因组图谱。完整的基因组图谱在分析遗传变异中发挥着重要的作用,
学位
图像分类技术是深度学习领域的一项重点研究方向。本文将深度神经网络应用于对医学图像的鉴别与诊断,研究内容主要是在传统卷积神经网络(Convolutional NeuralNetwork,CNN)的基础上做出改进,提高网络的效果。本文在重楼显微数据集和溃疡性结肠炎数据集上进行了具体研究。在对重楼显微图像的鉴别中,本文在基于传统CNN模型上加上了不同的注意力模块,其原理是可以模仿人眼观察物体一样在扫描整
学位
说唱音乐充分表达了作者对生活、对社会的态度,说唱音乐的传播可以帮助人们提高自我意识,弘扬中华民族的传统文化。然而中文文法和句式结构的复杂性使得中文说唱歌词领域的研究进展十分困难。说唱歌词生成是文本自动生成任务的特例,基于主题的说唱歌词生成技术不仅要求生成的说唱歌词满足文本的流畅性、可读性和内容性,更限制文本内容必须是主题相关性的。这对文本生成模型提出了巨大的挑战。本文首先明确了当今说唱歌词生成算法
学位
知识图谱(Knowledge Graph,KG)以强大的语义处理能力与开放互联能力成为人工智能领域研究的热点。然而,KG中的知识并不完善,部分实体之间缺少链接,导致KG的使用受到极大的限制。KG的链接预测任务旨在为实体间缺失的链接进行预测,其中,根据KG中的知识计算实体间存在链接的可能性,预测缺失的实体链接,是KG链接预测的核心任务之一,也是本文研究的链接预测问题。KG中的实体之间存在着相互依赖关
学位
航班延误是困扰世界各国的民航业难题。中国民航业在经过了一段时间的跨越式发展后,现如今仍存在民航管理体系不够健全、空管体制有待优化、市场体制不够完善等制约民航业整体运行效率的问题。另一方面,航空公司时刻安排不甚合理、延误信息发布不够及时,加之公民素质良莠不齐、航空知识宣传普及仍有待加强等因素,决定航班延误问题不仅很难在短期内有效解决,而且还需防范进一步恶化的可能。本文以航空公司航班延误问题作为研究案
学位
图像描述是使计算机自动输出关于图像内容的自然语言,即将自然图像转换为文字形式。基于编码器-解码器的网络结构是目前最常见的图像描述方法,自然图像作为编码器的输入,提取图像特征向量,将其与标注的序列编码共同输入解码器,建立图像与序列之间的联系,但是当前的研究仍然存在不足。比如在图像特征提取过程中,由于输入编码器的向量被展平,从而丢失了对象之间的位置关系。除此以外,在视觉特征和序列特征对应方面也存在不足
学位
社会经济的快速发展,使人们的生活水平及生活质量有大幅度提升,人们的消费意识和消费习惯有很大改变,这时候就出现了一种新兴的消费模式,即预付式消费,受到消费者的喜爱和偏好,现在非常多的商家也追捧这种消费模式。在近些年,预付式消费发展的非常快,但是实际监管中出现监管不力的问题导致消费者权益受到损害,就导致预付式消费的发展受到限制,造成一些不利的影响,影响预付式消费模式的推行,影响市场经济的发展。基于此,
学位