基于局部子图及其相互作用建模的图神经网络算法和应用

来源 :华东师范大学 | 被引量 : 1次 | 上传用户:cenyizhon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图神经网络是用于学习和推断图结构数据有前景的体系架构:小到细胞分子,大到社交网络乃至天体运行。继深度神经网络端到端解决方案在处理结构化数据(图像、语音、语言)取得巨大成功后,对于高度非结构化、非欧几里得空间关系型图数据的分析理解、建模预测近年来受到极大关注,并在信息技术、自然科学及工程领域表现出重要理论、应用价值。目前,图神经网络GNN(Graph Neural Networks)是人工智能领域图挖掘任务最先进的神经构架。然而,面对拓扑结构、节点数目、特征分布千变万化的图,图神经网络在处理复杂拓扑方面仍存在一定缺陷:(1)如何将深度神经网络技术用于图结构数据的建模与计算,生成高效紧凑、维数固定、可靠反映拓扑结构信息的图表征。图神经网络在刻画系统组成单元(局部子图)方面存在局限。常规的图卷积算子以节点为处理单元,虽然能够描述“中心子图”,可以区分特殊图结构但无法覆盖一般子图,且节点特征加权无法明确描述拓扑关系,更无法描述个体之间的相互作用;(2)如何建立拟合模型,准确预测图的目标属性。局部子图属于离散表达,故现有图挖掘通常采用贪婪枚举的刻画方法,只能处理极小尺寸的子图,由于子图指数级的组合复杂度,该类方法通常只能事先穷举所有较小尺寸的子图,极大限制了子图变化的覆盖范围,并导致过拟合现象;(3)如何以可解释的方式将属性图的结构特点与功能属性进行量化关联,从而为专家提供简洁、新颖的规则和科学假设,促进规律挖掘与知识发现。相比而言,复杂系统研究从多类的系统实例中寻找共性,并抽象成普适性的规律规则。这种跨学科、跨领域的归纳验证积累得到的科学思想,为图神经网络的结构设计提供了不可多得的借鉴,应当深入挖掘。复杂系统跨学科、跨领域的科学思想对图神经网络模型的设计提供了重要启发。然而,这一关联尚未充分研究利用,因此复杂系统科学与图神经网络的深度交叉融合仍存在空间。本文以图神经网络算法理论为研究对象,通过引入复杂系统研究中数据局部挖掘(局部子图个体表征)和全局建模(相互作用建模)特性,来克服其在表征复杂拓扑结构缺乏有效性,网络训练泛化缺乏稳定性,模型缺乏可解释性等不足,从而改进图神经网络构架设计。综上,为解决图神经网络研究中的局部子图表征及其相互作用问题,本文的主要工作及创新点如下所示:1.针对节点分类问题,提出了一种基于自适应结构指纹的节点分类方法。尽管取得了无数成功,但如何利用好GAT中的结构信息仍然具有挑战。其一是GAT中的加权系数仅取决于图的结构信息,这与实际有所不同,在实际情况下,节点之间的关系也可能来源于其特征。其次,GAT主要使用节点特征和一阶邻居来计算注意力。然而使用高阶邻居会对其性能产生负面影响,这与GNN的过度平滑性质密切相关。本章将每个节点与其高阶邻居组成的“结构指纹”关联起来。每个指纹都是一个具有自适应、非负权重的子图,反映了丰富的局部结构细节,因此在评估节点关系时充当“可变形状”内核,可以在高阶邻居之间执行消息传递,同时消除不需要的类间交互,从而使类边界用于改进节点注意力机制。从节点分类角度验证了局部子图为基本研究单元在图挖掘领域的优势。2.针对图分类问题,提出了一种基于子图结构标志和保拓扑图池化的图分类方法。尽管图神经网络近年来取得了蓬勃发展,但其核心的池化机制仍沿用最初的“节点卷积-压缩池化”框架,在处理复杂属性图的拓扑结构,训练稳定性和表征能力,以及模型解释性方面存在一定不足。已有池化算子容易造成拓扑信息损失并影响拓扑表征能力,神经网络的超参数化可以增强模型的容量和拟合能力,但也会导致过拟合及模型不稳定。这里提出了一种简单的神经网络架构“子图结构标志和保拓扑图池化”或SLIM,关键思想是计算一组结构标志,采用局部子图实例作为基本处理单元(而非节点邻域的特征加权平均),从而为节点的拓扑身份描述提供了更加丰富的背景,改善了池化层。3.针对药物药物相互作用问题,提出了一种基于子结构标志学习的药物与药物相互作用预测方法。药物只是由不同的化学子结构(官能团)组成的实体,在已有使用子结构对药物相互作用进行预测的方法中,每个节点都被认为是子结构的中心,彼此相邻的节点最终会成为相似子结构的中心,从而导致冗余。同时,化合物之间本身存在结构以及性质上的巨大差异也会引起不相干的配对,导致信息无法融合,这种异质性会对预测结果产生负面影响。为了解决这些问题本文提出了一种基于子结构识别DDI(Drug Drug Interaction)的新方法SIM-DDI,该方法通过对药物周围的局部子图提取有用信息,能够有效地使用子结构来辅助预测药物副作用,同时可以使用深度聚类算法将相似的子结构汇集在一起,从而使任意的子图个体都可以被这组全局的标志所重构。另外本文开发了一种独立于层的协同注意力机制来建模药物和药物之间的相互影响,为每一类药物都生成信号强度分数来规避异质性带来的噪声。作为副产品,该方法可以提示哪些子结构可能是导致DDI发生的原因。SIM-DDI在通用数据集上进行评估,与最先进的方法相比,提高了 DDI预测的性能。
其他文献
近年来包括原油在内的能源价格波动较大,使得对进口能源高度依赖的石化企业在进口能源时不仅负担增加,也使得对因石油价格大幅变动所带来的各种市场风险议题越发得到重视。如何通过参与到金融衍生品市场,进而通过如商品期货这样的避险工具,进行价格风险对冲,成为企业的重要风险管理策略之一。值得注意的是,在利用期货对冲市场风险时,在何种情况下使用何种套期保值策略,是否会因选择期货策略不当而影响到避险效果,均为本文研
学位
自改革开放以来,我国的代工企业凭借国家政策、生产要素和人口红利优势,得到迅速发展扩张。T公司成立于1978年,是一家精密塑胶产品和模具研发和制造企业,正是在这波浪潮中发展起来的,主要从事消费类电子产品精密塑胶件生产。随着T公司技术和管理经验的积累和规模化扩张,T公司开启了同心多元化发展道路,业务范围涉及手机、笔记本、智能家电、汽车、运动家居、健康医疗等领域。本文以T公司为研究对象,结合战略及同心多
学位
日益加快的城市化进程与人工智能大数据的深度融合,使城市管理方式发生了一系列新的变革,如“数字城管”“智慧城管”等。在第十二届全国人民代表大会第五次会议上,习近平总书记向上海代表团提出“像上海这样的超大型城市,城市管理应像绣花一样精细”。上海以其独特的城市管理经验成为了我国城市管理的杰出代表,习近平总书记2018年出席上海进博会时再次对上海提出了殷切的希望“上海作为最具有中国特色的超大型城市应在不断
学位
近年来随着规模经济和规模效益发展,企业通过科学的管理,减少运营成本,提高管理效率,共享服务应运而生。人力资源三支柱理念最早在西方企业中蔓延开来,全球各大企业、知名集团在人力资源管理的变革之路上,如火如荼地前进着。人力资源共享服务中心在人力资源管理模式上是一次重要的创新,随着高速发展的信息技术和日益提高的管理水平而出现,该模式的应用是对人力资源管理的一次伟大创新,重新构造了人力资源管理的工作流程,充
学位
农业领域“融资难”“融资贵”“融资繁”长期制约着我国农业现代化发展。随着乡村振兴战略的全面实施,发展和壮大新型农业经营主体并构建现代农业产业体系、生产体系和经营体系成为了实现乡村振兴产业兴旺要求的必由之路,在此过程中必须有效提升农村金融的供给能力和服务水平。2015年起,财政部、农业部、银监会要求在全国范围内建立起“国家—省—市县”三级一体的政策性农业信贷担保体系,政府部门、担保机构、商业银行等政
学位
2020年下半年至2021年上半年,随着全球疫情的恶化,集装箱海运受到很大影响,上海每天滞留港区内外的集装箱数量是疫情前的4倍,港外的零散堆场对集装箱供应链物流保障作用显得愈加重要。而现实中,国内市场上的各个集装箱后堆场分散经营,规模和体量小,粗放型的传统管理模式无法承担急剧增加的集装箱存储和运输需求,造成诸多社会问题。传统的物流或供应链理论面临着快速发展的碎片化企业资源整合、数据化平台管理的挑战
学位
为提升装配式建筑建设质量,完善装配式建筑施工技术体系,还应根据建筑物实际需求与结构设计科学地选用PC构件。因此,论文结合装配式建筑、PC构件的概念,简要分析了装配式建筑应用PC构件时的具体要求,详细研究了装配式建筑应用PC构件时的施工技术要点。
期刊
4N二聚类生物碱生源上来自色胺/色氨酸,二聚体中的4N由吲哚N和侧链N转化而来。自然界中酶在拼接两个单体时,特异性地组装出对称型的4N和非对称型的4N,最终缝合出具有多样性连接方式的二聚天然产物,不同的二聚方式也造就了特异的生物活性。该家族分子的独特结构和活性受到众多化学家的密切关注,高立体选择性地构筑全碳季碳中心和控制二聚连接位点成为研究的热点和难点。不同于传统研究中仿生启发的色胺/色氨酸2N单
学位
脊髓损伤是一种常见的疾病,损伤后导致病人截瘫,即在身体损伤以下的部位丧失运动与感知能力。脊髓损伤导致运动功能的丧失,本质上是由于损伤部位对脊髓神经网络(CPG神经网络)的破坏。目前对脊髓损伤病人的康复治疗仍然是基础医学的一个巨大挑战,尚有诸多问题等待探索和研究。本论文运用交叉学科的研究方法,从离子通道的角度探索细胞兴奋性调节与脊髓运动控制的机制,其结果可以在神经生理学的基础上为脊髓损伤病人的康复治
学位
学位