双曲空间中的神经网络图表示学习

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:vitchen02
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器学习试图使用图结构化数据作为特征信息进行预测或发现新的模式,其研究重点主要集中在嵌入图中的离散节点进入具有某些所需几何特性的连续空间。尽管图表示学习潜力巨大,但将图嵌入到低维空间并不是一项简单的任务。本文的工作重点是赋予神经网络表示适当的几何结构,以捕获图数据的基本属性,特别是层次结构和聚集行为。而复杂网络中的异质和高聚集拓扑特性却令人惊讶的反映在双曲负曲率空间的基本属性中。因此,本文的目的是通过使用神经网络对相互作用或关系进行建模,并利用数据所存在的双曲流形度量结构来学习得到节点的低维紧凑特征向量表示。而后,探索双曲空间是否有助于学习图数据的嵌入。本文通过将图中丰富的层次结构与现代机器学习所支持的连续表示相融合,分别提出了基于Poincaré模型的生成对抗图表示学习和基于双曲面模型的神经排序图表示学习来捕获图数据的潜在特征表示,特别是其都利用了神经网络的无监督端到端方法以及双曲几何的分层自组织能力来自动抽取节点的相似性和层次结构信息。(1)基于Poincaré模型的生成对抗图表示学习,通过将距离度量设置为Poincaré双曲几何模型中的距离函数,以此来明确的在嵌入空间中抓取数据的层次结构特征。同时,该方法结合先进的随机游走策略探索图的远程拓扑结构信息来构造训练所需的数据集,利用神经网络的对抗学习原理来自动获取更高层次的节点特征表示。所设计的神经网络通过生成模型和对抗模型之间的相互竞争来交替提升彼此的性能,采用强大的学习优化策略来提升模型效率,从而使得该方法能够产生更高质量的节点特征表示。而后,将学习得到的节点特征向量表示分别应用于节点分类、链接预测和可视化并分析了模型的维度敏感性,其实验结果表明该方法在多个任务中具有良好的表现力和有效性。(2)受到一些最近提出的利用双曲空间来提供强有力蕴涵关系表示的启发,基于双曲面模型的神经排序图表示学习没有使用过度复杂的节点交互机制,而是设计了一种嵌入双曲几何的更小更快的神经排序模型来捕获图数据的拓扑结构信息。该方法通过贝叶斯个性化排序目标来最大化正确链接和错误链接之间的差距,以自动学习节点之间的相似性信息。为了捕获数据的层次结构特征信息,特别的在神经网络模型的双曲层通过双曲面模型中的距离函数计算节点之间的层次距离得分。最终,该模型利用基于黎曼梯度下降的方法来学习低维紧凑的节点特征向量表示。在得到节点的潜在特征向量表示后,本文在节点推荐和节点分类任务上对比不同空间中的图表示学习方法,以及分析所提出的方法对维度的敏感性和模型的收敛性。实验结果表明所提出的方法在节点特征学习上不仅高效而且能获得更加紧凑和更具表达力的特征向量表示。综上,本文通过在神经网络模型中引入双曲几何度量来学习图中节点的拓扑结构特征表示,并展示了它们如何高效地学习节点的相似性和层次结构,以提供超越欧几里德嵌入的优势。诸多实验结果表明所提出的方法在节点特征学习上不仅高效而且能获得更加紧凑和更具表达力的特征向量表示。同时也表明,学习有意义的图表示可以使许多重要的图分析任务受益,而嵌入双曲空间中的层次结构能很好地对应于数据的基础语义。
其他文献
随着社会的发展,人们对通信系统传输数据的速率和稳定性也有了更高的要求。毫米波由于能够提供丰富的频谱资源而受到广泛关注,但是其物理特性决定了它需要与MIMO(多输入多输
电子书解析及排版技术是指根据相应的电子书格式,按照一定的规则对电子书内容进行解析和排版的技术,是电子书阅读器研究和开发的关键技术。目前常见的电子书格式有TXT、PDF、
目的:本研究通过分析长链非编码RNA Linc01021和微小RNA miR-576/miR425在大肠癌与癌旁正常粘膜组织中的表达差异及它们之间的相关性,研究了Linc01021和miR-576/miR-425表达
目的研究以PLGA-PDPA纳米粒作为光热转化材料,利用剪切波弹性成像监控肝组织的光热消融治疗,以探索新的肝脏光热消融治疗实时监控方法。方法利用双乳化法制作PLGA微球,在碱性
断奶仔猪腹泻(Post-weaning diarrhoea,PWD)是影响仔猪生产效益的主要因素,蛋白质是仔猪生长的必需营养物质,可通过结肠发酵、过敏反应等引发仔猪腹泻。而结肠作为吸收水分的
目的:越来越多的证据支持长链非编码RNA ZFAS1(LncRNA ZFAS1)可作为蛋白调节剂介导多种癌症的发生发展,然而其在结直肠癌中的生物学功能与分子调控机制尚不完全清楚,因此,挖
目的:探究金雀异黄素(genistein,GEN)对脂多糖(lipopolysaccharides,LPS)活化的巨噬细胞凋亡的影响及是否与调节TIPE2/Akt通路有关。方法:1.将1 000 ng·mL-1LPS作用于RAW264.7细
随着数据信息化的日益发展,人工地从数据中筛选出需求的信息已经变得十分困难,为此研究者以统计学思想为基础提出了机器学习方法,而其中分类、聚类和回归分析等知识发现方法更是获得了较为广泛的应用。但原始数据中可能存在的冗余及偏差信息会导致知识发现算法难以获得预期的结果,因此预先对数据进行必要的处理在机器学习领域的研究中同样十分重要。以属性选择算法为代表的数据预处理技术被提出用来从从原始数据中提取出更加重要
背景和目的药物的靶向治疗是近些年来研究的热点,索拉菲尼作为一种口服多重激酶抑制药,具有抑制肿瘤细胞增殖和血管形成的双重作用,作为治疗肝癌和转移性肾细胞癌的一线药物,
随着人类基因组计划测序工作完成,蛋白质的相关研究已成为当今生命科学的主要研究内容之一。配体结合蛋白在诸多生物过程中发挥关键作用。蛋白质-配体结合残基的识别对于理解蛋白质功能有重要意义。由于传统测定方法的技术细节复杂且成本高昂,处理海量的蛋白质需要计算方法的参与。已知的计算方法均基于传统机器学习,可被粗略地分为基于序列的方法和基于三维结构的方法,两者的根本区别在于是否使用三维结构,前者已在一系列结合