论文部分内容阅读
物理、生物、社会和信息系统中的关联数据可以根据关系种类被抽象为单一关系图谱或多关系图谱,同时得益于图的表征和计算能力,对图结构数据的处理已经成为了当前学术界和工业界的研究热点之一。作为人工智能领域的重要研究方向之一,表示学习技术能基于图中包含的拓扑结构信息和语义信息,对图进行有效表征与计算,并在语音识别与信号处理、自然语言处理等相关领域中起到了举足轻重的作用。其目标是采用机器学习的方法,利用网络中的知识结构,将图中的节点和边以低维实值向量进行表达,实现对实体和关系的语义信息提取与表示,从而完成相应的图计算应用。基于此,通过深入分析现有的图表示学习算法的设计思路与建模机制,本文将围绕基于语义合成与映射的表示学习模型展开研究,并梳理分析当前主流相关工作,明确现有语义合成方法存在的不足:第一,当前主流的语义合成方式对图中信息利用不足,难以挖掘出实体间更丰富的关联特征,导致表示学习算法性能较低;二,当前主流相关模型主要关注如何设计新颖的向量语义映射算法,忽视了对不同向量语义合成方式优缺点的深入认识,难以灵活应用于各种场景,制约了图表示学习算法的实际应用。针对上述关键问题,本文分别提出了对应的语义映射模型作为解决方案,其主要贡献如下:1、针对主流语义映射算法大多是基于线性的且信息利用不充分的缺点,设计了一种并列卷积的语义合成方式,提出并实现了一种基于卷积神经网络的表示学习算法,利用深度神经网络对潜藏特征的提取能力,充分捕捉任意两个知识的关联,缓解现有工作对图中信息利用不足的问题。通过在基准数据集上进行实验证明,本文提出的语义合成与映射算法的性能整体优于当前主流工作。2、总结归纳当前主流算法在语义合成方式设计上的异同点,提出了一种基于向量语义合成与映射的图表示学习框架。该框架既保持了TransE模型简捷高效的优点,又能够兼容当前主流的语义映射模型设计思路,而且在设计思路上与现有模型均有一定区别,对系统研究不同语义合成方法提供了研究平台。3、将现有的语义合成计算方案总结为三类,据此提出12种方案变体,并基于统一框架对实验性能进行了系统的对比分析,得出了关于向量语义合成建模的规律性认识:所提模型能够以简单的建模假设和较低的模型复杂度在多种数据集上得到优于当前主流模型的性能,该实验结果有助于从新的视角认识图的表示学习问题,促进表示学习领域理论和应用的进一步深入研究。