论文部分内容阅读
图谱数据是一种重要的数据表示,它出现在各种各样的现实世界场景中,例如,社交网络中的社交图谱,研究领域中的引文图谱,知识图谱等。有效的图谱分析可以使用户更深入地了解数据背后的内容,从而使许多现实中的应用受益,如推荐系统,自然语言处理,可视化等。但是,大多数图谱分析方法都会遇到计算效率低下和空间代价高昂的问题。图谱表示学习,是解决图谱分析问题有效且高效的方法。它将图谱数据映射到低维空间中,最大程度地保留了图谱结构信息和图谱的属性。本文的研究侧重于图谱表示的两种主要学习技术,即网络表示和知识表示学习技术。现有的图谱表示方法面临着计算效率低下和数据稀疏的问题。特别的,现有的网络表示模型也无法处理异构信息网络,这些信息网络在真实场景中比同构信息网络更常见。具体的,本文提出了四个图谱表示模型来解决上述问题,一个用于同构信息网络,两个用于异构信息网络,一个用于知识图谱。首先介绍同构信息网络表示模型BimoNet,该模型基于双模式表示模型和深度神经网络模型。在双模式表示模型中,加法模式和减法模式分别表示边的实体共享特征和实体特定特征。深度自编码器可以表征边的结构信息。之后,通过联合优化这两个模型的目标函数,BimoNet可以保留边的语义和结构信息。在实验中,采用的数据集是一个同构信息网络,它是作者研究领域共享网络,唯一的节点类型是作者。最后在关系提取的基准任务上评估BimoNet。然而,相较于同构信息网络,异构信息网络更为广泛地存在于现实世界的图谱数据中。因此,提出了一种新的异构信息网络表示模型TransPath,它将位移机制与元路径结合在一起。将元路径视为路径中第一个节点至最后一个节点的位移操作。此外,提出了一种用户引导的元路径抽样策略,将用户的偏好作为引导,可以更精确地探索路径的语义,同时通过避免其他噪声和无意义的元路径的干扰来提高模型效率。在两个大型真实数据集DBLP和YELP以及两个基准任务相似性搜索和节点分类上评估所提模型。元路径的表示能力仍然有限,因为当使用路径捕获两个节点之间的邻域结构时存在明显的信息丢失。因此,提出了一种新的机制,通过元图谱捕获节点的特征,这些特征保留了比路径更多的语义和结构信息。模型将节点和元图谱构建为异构信息网络三元组,然后应用Hadamard函数来编码节点和元图谱之间的关系,并且可以评估异构信息网络三元组是否为正的概率。此外,为了更好地区分元图谱对称和非对称情况,引入了一种复数表示的机制,它能够精确地表示异构信息网络节点。最后在真实数据集上评估所提出的模型metagraph2vec的有效性。本文还提出了一个名为Bi-Mult的新知识表示模型,它利用动态双模式表示机制来表征知识图谱并结合了组合模型和位移模型的优点。在双模式表示模型中,实体(关系)表示被分解为两部分,一部分表示实体(关系)的内在状态,另一部分表示实体(关系)的交互状态。双模式的关系表示增强了关系与实体的相互作用,从而增强了模型处理非对称关系的能力。此外,通过映射矩阵将双模式表示的实体应用在位移模型中,构建了用于表征复杂关系的动态表示模型。在实验中,在基准数据集和基准任务链路预测上评估所提模型。总之,许多研究提出了图谱表示学习技术来分析图谱数据背后所隐藏的丰富信息。然而,传统的图谱表示模型存在计算效率低下和数据稀疏性问题。为了解决这些问题,本文提出了四种新的图谱表示方法,更具体的,网络表示和知识表示方法,它们都提供了一种新的角度来实现图谱的表示学习。在实验中,所得结果验证了算法和模型的有效性。