论文部分内容阅读
当今,网络数据作为一种广泛使用的数据载体,正逐渐成为人们认知并抽象世界的一种方式之一。网络中除了节点和边的信息外,往往还包括丰富的节点属性,蕴含巨大的价值。网络表示学习,是一种旨在将网络数据中的节点表示成低维、稠密且是实值向量表示形式的新颖的表示学习方法,学习到的向量表示将会用于各类下游任务如节点分类和链路预测中以提升性能。然而现有的深度网络表示学习方法由于忽略了嵌入表示的分布容易陷入过拟合问题,意味着这将会影响学习到的嵌入向量表示在下游任务中的泛化能力。
生成对抗网络运用对抗训练的思想,通过设置一个生成器来拟合数据的真实分布,基于生成对抗网络的网络表示学习方法,以对抗训练机制来约束学习得到的嵌入表示的分布开缓解过拟合问题。然而现有的方法以无监督学习方式进行,存在两方面的问题:一是提取的网络嵌入表示性能不足,在学习嵌入特征时没有充分利用网络的邻节点信息,同时缺乏对内容信息的重构;二是这类方法使用的对抗训练机制需要人为指定一个先验分布,存在模式崩溃问题,同时使用经典的对抗损失函数存在生成器训练困难问题。
针对以上问题,本文研究提出了基于注意力的对抗正则化网络表示学习模型和基于Wasserstein距离的对抗正则化网络表示学习模型,主要工作包括:
(1)针对现有方法提取的网络嵌入表示性能的不足,提出基于注意力的对抗正则化网络表示学习模型(Attention Based Adversarially Regularized Network Embedding,AARNE)。该模型在ARGA模型的基础上受GAT启发,提出了一个注意力自动编码器学习网络的嵌入表示,通过引入注意力机制在更新节点表示时动态考虑不同邻节点的权重,并通过加权聚合邻节点得到新的表示,与此同时,通过结构解码器和内容解码器分别重构邻接矩阵和内容矩阵,使得嵌入表示可以同时保留网络的结构信息和内容信息,最后通过对抗训练框架对嵌入表示施加先验分布的约束缓解过拟合问题。最后在Cora、Citeseer和Pubmed数据集上进行实验验证了AARNE模型可以学习到更好的嵌入表示。
(2)进一步,针对现有方法因人为指定先验分布进行对抗训练存在模式崩溃以及使用经典对抗训练损失函数造成的生成器训练困难问题,提出了基于 Wasserstein 距离的对抗正则化网络表示学习模型(Wasserstein Adversarially Regularized Network Embedding, WARNE)。该模型受 WGAN 启发,通过引入一个生成器参数化先验分布避免了人为指定先验分布带来的模式崩溃问题,并基于 Wasserstein 距离修改对抗训练的损失函数缓解梯度消失或不稳定造成的训练困难的问题,通过最小化新的对抗训练损失来尽可能减少嵌入表示分布和真实数据分布之间的差异,对嵌入表示进行起到正则化的作用。最后在三个引文数据集上进行实验验证了WARNE模型的有效性。
生成对抗网络运用对抗训练的思想,通过设置一个生成器来拟合数据的真实分布,基于生成对抗网络的网络表示学习方法,以对抗训练机制来约束学习得到的嵌入表示的分布开缓解过拟合问题。然而现有的方法以无监督学习方式进行,存在两方面的问题:一是提取的网络嵌入表示性能不足,在学习嵌入特征时没有充分利用网络的邻节点信息,同时缺乏对内容信息的重构;二是这类方法使用的对抗训练机制需要人为指定一个先验分布,存在模式崩溃问题,同时使用经典的对抗损失函数存在生成器训练困难问题。
针对以上问题,本文研究提出了基于注意力的对抗正则化网络表示学习模型和基于Wasserstein距离的对抗正则化网络表示学习模型,主要工作包括:
(1)针对现有方法提取的网络嵌入表示性能的不足,提出基于注意力的对抗正则化网络表示学习模型(Attention Based Adversarially Regularized Network Embedding,AARNE)。该模型在ARGA模型的基础上受GAT启发,提出了一个注意力自动编码器学习网络的嵌入表示,通过引入注意力机制在更新节点表示时动态考虑不同邻节点的权重,并通过加权聚合邻节点得到新的表示,与此同时,通过结构解码器和内容解码器分别重构邻接矩阵和内容矩阵,使得嵌入表示可以同时保留网络的结构信息和内容信息,最后通过对抗训练框架对嵌入表示施加先验分布的约束缓解过拟合问题。最后在Cora、Citeseer和Pubmed数据集上进行实验验证了AARNE模型可以学习到更好的嵌入表示。
(2)进一步,针对现有方法因人为指定先验分布进行对抗训练存在模式崩溃以及使用经典对抗训练损失函数造成的生成器训练困难问题,提出了基于 Wasserstein 距离的对抗正则化网络表示学习模型(Wasserstein Adversarially Regularized Network Embedding, WARNE)。该模型受 WGAN 启发,通过引入一个生成器参数化先验分布避免了人为指定先验分布带来的模式崩溃问题,并基于 Wasserstein 距离修改对抗训练的损失函数缓解梯度消失或不稳定造成的训练困难的问题,通过最小化新的对抗训练损失来尽可能减少嵌入表示分布和真实数据分布之间的差异,对嵌入表示进行起到正则化的作用。最后在三个引文数据集上进行实验验证了WARNE模型的有效性。