论文部分内容阅读
现今,网络作为数据的重要载体,其结构随着互联网数据的指数级增长变得越发复杂。在一个网络中,除了节点本身蕴含的信息外,节点之间的关系也拥有巨大的数据挖掘价值。网络表示学习的出现是为了解决传统网络分析技术的局限性,以应用于现在的大规模网络以及复杂的机器学习、数据挖掘任务。基于矩阵分解的网络表示学习方法能够做到重建网络,但是很容易产生过拟合现象,整体的表现并不尽如人意;基于自然语言模型的网络表示学习算法虽然能够不同程度地利用网络结构进行网络表示学习,但是它们均属于浅层模型,这也就意味着它们很难学习到网络结构深层的、更复杂的特征。深度学习近几年发展迅速,在多个领域取得了重要进展,其本质就是对数据特征进行深层次的抽象,学习高维数据到低维特征的映射函数。而网络表示学习也可以看做是将节点的表示从原网络的高维空间转换到一个低维向量空间中的过程,其本质问题是学习两个向量空间之间的映射函数。因此,出现了基于深度学习的网络表示学习方法。然而,现有的基于深度学习的网络表示学习方法大多仅使用网络结构进行网络表示学习,未使用节点标签以及节点的自身属性,无法更好的反映节点的真实性,因此,本文针对基于深度学习的网络表示学习方法进行了研究主要工作如下:(1)针对堆叠自编码器对输入数据的噪声没有鲁棒性以及已有模型未加入标签信息的缺点,提出了基于压缩自编码器的半监督网络表示学习模型LSDNE(Labeled Structural Deep Network Embedding)。该模型在SDNE模型的基础上,将SDNE模型的普通堆叠自编码器SAE替换成压缩自编码器CAE,并使用SVM分类器作为模型的有监督部分,使得已知标签的信息能够融入网络表示学习过程中。LSDNE在Citeseer数据集和Cora数据集上的实验表明压缩自编码器CAE使得LSDNE的泛化能力比使用普通堆叠自编码器SAE更优秀,同时LSDNE模型相较于现有的模型具有更好的标签预测精确度。(2)在现实世界的网络中,除了网络结构和节点标签,节点本身会包含各种属性,这些属性可以作为侧面信息融合到网络表示学习的过程中。当LSDNE应用于属性网络时会产生大量超参数,会大大增加模型的复杂度,降低模型训练效率。为了更好地利用网络节点的本身属性,减少模型参数及复杂度,受LLE(Locally Linear Embedding)算法启发本文提出了一种基于邻居结构的半监督网络表示学习模型SLLDNE(Structural Labeled Locally Deep Nonlinear Embedding)。实验证明SLLDNE在减少了参数的情况下效果与LSDNE相当。在SLLDNE的基础上进一步加入节点属性提出了SILDNE。通过SVM分类器对已知标签进行分类,SILDNE将网络结构、标签、节点属性三者融合到深度神经网络中。实验验证SILDNE模型在应用于标签预测任务时的效果优于已知的方法。