论文部分内容阅读
图神经网络是用于学习和推断图结构数据有前景的体系架构:小到细胞分子,大到社交网络乃至天体运行。继深度神经网络端到端解决方案在处理结构化数据(图像、语音、语言)取得巨大成功后,对于高度非结构化、非欧几里得空间关系型图数据的分析理解、建模预测近年来受到极大关注,并在信息技术、自然科学及工程领域表现出重要理论、应用价值。目前,图神经网络GNN(Graph Neural Networks)是人工智能领域图挖掘任务最先进的神经构架。然而,面对拓扑结构、节点数目、特征分布千变万化的图,图神经网络在处理复杂拓扑方面仍存在一定缺陷:(1)如何将深度神经网络技术用于图结构数据的建模与计算,生成高效紧凑、维数固定、可靠反映拓扑结构信息的图表征。图神经网络在刻画系统组成单元(局部子图)方面存在局限。常规的图卷积算子以节点为处理单元,虽然能够描述“中心子图”,可以区分特殊图结构但无法覆盖一般子图,且节点特征加权无法明确描述拓扑关系,更无法描述个体之间的相互作用;(2)如何建立拟合模型,准确预测图的目标属性。局部子图属于离散表达,故现有图挖掘通常采用贪婪枚举的刻画方法,只能处理极小尺寸的子图,由于子图指数级的组合复杂度,该类方法通常只能事先穷举所有较小尺寸的子图,极大限制了子图变化的覆盖范围,并导致过拟合现象;(3)如何以可解释的方式将属性图的结构特点与功能属性进行量化关联,从而为专家提供简洁、新颖的规则和科学假设,促进规律挖掘与知识发现。相比而言,复杂系统研究从多类的系统实例中寻找共性,并抽象成普适性的规律规则。这种跨学科、跨领域的归纳验证积累得到的科学思想,为图神经网络的结构设计提供了不可多得的借鉴,应当深入挖掘。复杂系统跨学科、跨领域的科学思想对图神经网络模型的设计提供了重要启发。然而,这一关联尚未充分研究利用,因此复杂系统科学与图神经网络的深度交叉融合仍存在空间。本文以图神经网络算法理论为研究对象,通过引入复杂系统研究中数据局部挖掘(局部子图个体表征)和全局建模(相互作用建模)特性,来克服其在表征复杂拓扑结构缺乏有效性,网络训练泛化缺乏稳定性,模型缺乏可解释性等不足,从而改进图神经网络构架设计。综上,为解决图神经网络研究中的局部子图表征及其相互作用问题,本文的主要工作及创新点如下所示:1.针对节点分类问题,提出了一种基于自适应结构指纹的节点分类方法。尽管取得了无数成功,但如何利用好GAT中的结构信息仍然具有挑战。其一是GAT中的加权系数仅取决于图的结构信息,这与实际有所不同,在实际情况下,节点之间的关系也可能来源于其特征。其次,GAT主要使用节点特征和一阶邻居来计算注意力。然而使用高阶邻居会对其性能产生负面影响,这与GNN的过度平滑性质密切相关。本章将每个节点与其高阶邻居组成的“结构指纹”关联起来。每个指纹都是一个具有自适应、非负权重的子图,反映了丰富的局部结构细节,因此在评估节点关系时充当“可变形状”内核,可以在高阶邻居之间执行消息传递,同时消除不需要的类间交互,从而使类边界用于改进节点注意力机制。从节点分类角度验证了局部子图为基本研究单元在图挖掘领域的优势。2.针对图分类问题,提出了一种基于子图结构标志和保拓扑图池化的图分类方法。尽管图神经网络近年来取得了蓬勃发展,但其核心的池化机制仍沿用最初的“节点卷积-压缩池化”框架,在处理复杂属性图的拓扑结构,训练稳定性和表征能力,以及模型解释性方面存在一定不足。已有池化算子容易造成拓扑信息损失并影响拓扑表征能力,神经网络的超参数化可以增强模型的容量和拟合能力,但也会导致过拟合及模型不稳定。这里提出了一种简单的神经网络架构“子图结构标志和保拓扑图池化”或SLIM,关键思想是计算一组结构标志,采用局部子图实例作为基本处理单元(而非节点邻域的特征加权平均),从而为节点的拓扑身份描述提供了更加丰富的背景,改善了池化层。3.针对药物药物相互作用问题,提出了一种基于子结构标志学习的药物与药物相互作用预测方法。药物只是由不同的化学子结构(官能团)组成的实体,在已有使用子结构对药物相互作用进行预测的方法中,每个节点都被认为是子结构的中心,彼此相邻的节点最终会成为相似子结构的中心,从而导致冗余。同时,化合物之间本身存在结构以及性质上的巨大差异也会引起不相干的配对,导致信息无法融合,这种异质性会对预测结果产生负面影响。为了解决这些问题本文提出了一种基于子结构识别DDI(Drug Drug Interaction)的新方法SIM-DDI,该方法通过对药物周围的局部子图提取有用信息,能够有效地使用子结构来辅助预测药物副作用,同时可以使用深度聚类算法将相似的子结构汇集在一起,从而使任意的子图个体都可以被这组全局的标志所重构。另外本文开发了一种独立于层的协同注意力机制来建模药物和药物之间的相互影响,为每一类药物都生成信号强度分数来规避异质性带来的噪声。作为副产品,该方法可以提示哪些子结构可能是导致DDI发生的原因。SIM-DDI在通用数据集上进行评估,与最先进的方法相比,提高了 DDI预测的性能。