论文部分内容阅读
随着大规模网络数据变得越来越容易获取,将机器学习领域内的技术引入到网络分析领域是目前较为活跃的研究方向。然而网络类型的数据与目前主流的机器学习模型不兼容。网络表示学习(NRL)通过将网络数据映射到低维向量空间中,使得网络数据得以以向量表示的形式输入到机器学习模型中,这种方法在网络分析领域取得了突出的效果,网络表示学习最基本的任务为节点分类,该任务需要一个算法将节点映射成向量并使用机器学习模型来预测节点的标签。最近,许多基于邻居整合的算法在节点分类任务中取得很突出的成果。该类型算法通过整合局部邻居节点的节点特征而得到节点的嵌入。然而,邻居整合的递归展开导致了深度模型中的效率问题。现有的方法受限于浅层的结构,无法捕获网络中的高阶近似度信息。如何以高效的方式提高算法模型的深度以及效率是该领域所面临的重要问题。此文中,我们提出了深度整合网络(DAN)。DAN使用一种逐层贪婪优化的策略,它堆叠几个依次训练的基模型来组成一个深度模型。高阶邻居整合以类似动态规划的形式执行,这使得邻居整合中的递归特性被删除。DAN还采用了以随机游走为基础的邻居采样方法,使得模型的输入稀疏化,大幅度减少模型的计算量。论文中提出的算法对于基于邻居整合的方法的实用性提升具有重要意义。DAN主要从三个方面对现有算法进行提升。首先在面对密集连接的网络时,对节点邻居进行采样能够使网络稀疏化,从而提升邻居整合的效率。其次通过消除邻居整合的递归特性,可以使邻居整合具有深度结构。最后,通过节点多层表示机制,模型可以生成更高质量的表示。以往的均匀采样策略无法适应不同的网络连接模式。通过对现实世界中的复杂网络的统计特性的分析,本文提出了反向随机游走。并通过与经典随机游走结合而构造了一个新型的采样策略,这使得DAN不仅可以提升效率,还可以灵活地适应不同类型的任务。通过对邻居整合的递归性问题进行分析,本文提出了类似于动态规划的逐层贪婪优化效率,使得模型得以在线性时间内加深深度。DAN的深度结构产生了大量的中间隐层表示。本文基于DAN的中间隐层表示提出了节点多层表示的概念,并将节点的多层表示进行融合而形成节点的最终表示。多层表示机制使得DAN的性能进一步提升,增加了DAN的在中浅层时性能提升的速度。并且多层表示机制使得DAN可以在不同的数据集和任务之间迁移。与以往的基于邻居整合的方法对比,DAN是一个更有效且快速的算法。尤其是在处理大规模密集连接的网络时,DAN伸缩性好,训练速度快,且具有处理无节点特征数据的能力。本文在合成和真实世界网络数据集上进行了广泛的实验来证明提出算法的有效性。目前DAN是一种半监督的节点分类算法,将其拓展为更广泛的形式仍需进一步的工作。