论文部分内容阅读
网络表示学习旨在为网络中所有节点学习低维稠密的向量表示,以执行后续的多种复杂网络分析任务。目前,大多数的网络表示学习只单一地关注于网络拓扑结构,然而,在真实网络中,节点本身往往具有丰富的属性信息,比如文本、图像等信息,并且这些属性信息通常蕴含着网络的某些特性。因此,如何合理高效地将网络拓扑结构信息与节点属性信息融合在一个统一的网络表示学习框架中,以保证所学节点表示能够同时刻画网络结构与节点属性所蕴含的有用特征,是一个具有前景的研究课题。本文将结合节点属性信息的网络表示学习定义为属性网络表示学习,其研究主要存在两个挑战。1)网络结构和节点属性信息是两种不同来源的信息,分别从不同的角度反映着同一个网络的特性,如何同时提取二者有用特征,以达到互补互助的目的,是属性网络表示学习的关键问题。2)在大数据时代,真实网络的节点数量是巨大的,这对属性网络表示学习方法的可扩展性提出了更高的要求。针对上述问题,本文做了如下两个工作:首先,面向节点的文本属性,本文基于非负矩阵分解的框架提出一种由文本属性强化的网络表示学习方法(Text Enhanced Network Embedding,TENE)。通过挖掘节点表示与节点基于文本属性的聚类结构之间的一致性关系,本文使所学网络表示具有更多的信息和更高的可辨识性。在网络结构相似度矩阵和文本聚类隶属度矩阵的共同指导下,TENE将网络结构和文本属性中有效的特征同时融入节点表示。通过在三个真实数据集上执行节点分类任务,本文对TENE方法的质量进行了评估。实验结果表明TENE相较于其它表示学习方法具有更高的性能。然后,本文基于对称矩阵分解的框架提出一种更通用的属性网络表示学习方法CCANE(Consistency Constrained Attributed Network Embedding)。CCANE分别对节点之间基于网络结构和基于属性的相似性进行建模,并利用属性网络的同质性,在两种不同来源的节点表示之间建立了一致性与互补性的联系,然后将二者拼接组成最终的节点表示。此外,CCANE通过将复杂的建模和优化过程分解为多个简单且互相独立的子问题,使原始问题可以并行求解,以适用于大规模数据集。通过在真实数据集上执行节点分类及可视化任务,本文验证了CCANE的有效性和高效性。